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Wprowadzenie 


Sieci neuronowe, kiedyś awangardowe i fascynujące jako narzędzia informatyczne będące 
jednocześnie - oczywiście tylko w pewnym zakresie - modelami ludzkiego mózgu, są już 
zaledwie popularnymi technikami obliczeniowymi, wykorzystywanymi chętnie i często, ale 
nie budzącymi już dziś większych emocji. Z takim ściśle pragmatycznym podejściem do 
sieci neuronowych, traktowanych wyłącznie jako narzędzia do rozwiązywania praktycznych 
problemów, wiąże się też zmieniony model zapotrzebowania na wiedzę, która jest z nimi 
związana. Kiedyś czytelnicy byli na tyle zainteresowani samymi sieciami neuronowymi jako 
takimi, że bardzo poszukiwali książek na ten temat i skwapliwie z nich korzystali. Odwo- 
łajmy się do przykładu książki [1], która jako pierwsza w Polsce poświęcona tej tematyce 
miała tak wielkie powodzenie, że pierwszy jej nakład rozszedł się w ciągu dwóch tygodni 
i trzeba było jeszcze w tym samym roku przygotować i wydać wydanie drugie - oczywiście 
poprawione i uzupełnione. Książka ta była dość pilnie czytana, o czym świadczy ponad 500 
udokumentowanych cytowań w Google Scholar i ponad 20 prac doktorskich, do opiniowa- 
nia których zapraszano autora, ponieważ były one oparte na merytorycznej bazie tej właśnie 
książki. Warto jeszcze raz podkreślić: w tamtym pionierskim okresie przeczytanie nawet tak 
obszernej i miejscami bardzo szczegółowej książki nie wydawało się Czytelnikom wysiłkiem 
nadmiernym ani źle ulokowanym. 


W kolejnych latach (1994 i 1995) pojawiły się liczne książki zagraniczne na temat sieci 
neuronowych, ale w Polsce ich przyrost nie był szczególnie duży: w 1994 roku książka [2], 
w 1995 książka [3]. Opiniując w tym czasie liczne artykuły oraz inne prace naukowe (na przy- 
kład doktoraty i habilitacje) dotykające problematyki sieci neuronowych, jeden z autorów 
tego Leksykonu miał okazję przekonać się, że wspomniane książki były bardzo dokładnie 
czytane, a uważni czytelnicy wychwytywali i wykorzystywali nawet bardzo drobne niuanse. 


10 


Leksykon sieci neuronowych 


Potem jednak ruszyła lawina: w 1996 roku ukazały się już cztery książki poświęcone pro- 
blematyce sieci neuronowych [3], [4], [5] i [6], a w kolejnych latach było ich już tak wiele, że 
trudno by je tu było wszystkie wymienić, nie mówiąc o jakimś omawianiu czy charakteryzo- 
waniu ich treści. 


Jednak, jak wspomniano, ta fascynacja sieciami neuronowymi jako takimi już minęła. Obecnie 
prawie nikt już nie zastanawia się nad tym, jakie cechy naturalnej (biologicznej) komórki nerwo- 
wej posiada sztuczny neuron będący składnikiem sieci rozwiązującej jakiś praktyczny problem. 
Przedmiotem zainteresowania jest bowiem rozwiązywany problem, a sieć stała się tyl- 
ko narzędziem służącym do uzyskania rozwiązania. Takiemu podejściu sprzyja także łatwa 
dostępność różnych programów, oferujących sieci neuronowe jako łatwe w użyciu narzędzie 
informatyczne, typu „tu się wkłada dane, a tu się otrzymuje wyniki”. Nieważne, co jest w środ- 
ku, byle dane były dobrze wykorzystane a wynik był przydatny! Przykładem często używanych 
programów tego typu jest Neural Networks Toolbox for Matlab albo Statistica Neural Networks. 
Mniej znanym, ale też znakomitym profesjonalnym programem jest pakiet Mathematica Neu- 
ral Networks, który jest dziełem genialnego matematyka i fizyka Stephena Wolframa. 


Takiemu podejściu użytkowników towarzyszył także zmieniający się profil następnych wyda- 
wanych książek - zamiast opisu sieci neuronowych jako takich pojawiały się w nich głównie 
informacje na temat zastosowań tych sieci. A ponieważ tych zastosowań (udanych!) było 
bardzo dużo - pojawiały się też coraz obszerniejsze opracowania książkowe, gromadzące 
właśnie takie artykuły i doniesienia. Większość tych artykułów miała podobny schemat: 
„chcieliśmy rozwiązać problem X, zastosowaliśmy sieć neuronową oraz rekomendowaną 
przez innych autorów metodę Y, porównaliśmy wyniki i sieć neuronowa okazała się lepsza 
od metody Y". Jak się wydaje najbardziej okazałymi działami tego typu w Polsce były mo- 
nografie [8] i [9], wydawane pod egidą Polskiej Akademii Nauk. Pierwsza z nich zawierała 
26 rozdziałów i mieściła się na 833 stronicach, druga zawierała 27 rozdziałów (oraz obszerny 
dodatek) i mieściła się na 745 stronicach. Oczywiście tak obszernych książek nikt już nie 
czytał „od deski do deski”, tylko każdy czytelnik takiej książki wydobywał z niej to, co go w da- 
nym momencie interesowało w kontekście jego problemu, do rozwiązania którego zamie- 
rzał użyć sieci neuronowych. 


Jednak przy takim ściśle pragmatycznym i utylitarnym podejściu do sieci neuronowych pojawia 
się niekiedy trudność, polegająca na tym, że osoba czytająca o interesującym zastosowaniu 
tych sieci często napotyka w tekście studiowanego artykułu lub rozdziału monografii specja- 
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listyczny termin, związany właśnie ze specyficzną wiedzą na temat sieci neuronowych jako ta- 
kich. Autor czytanego artykułu tego terminu nie objaśnia, gdyż dla niego (i dla innych osób, 
które dobrze poznały problematykę sieci neuronowych) jest to pojęcie elementarne, oczywiste, 
nie wymagające objaśnień. Inna jest jednak sytuacja czytelnika, który chce sieci użyć, ale braku- 
je mu owej specjalistycznej wiedzy. Oczywiście można w tym momencie powiedzieć, że skoro 
nie wie, to powinien się douczyć, sięgając do książek kompleksowo przedstawiających całość 
problematyki sieci neuronowych jako takich. Jednak taki postulat jest nierealistyczny. Ktoś kto 
chce szybko i skutecznie rozwiązać jakiś swój problem, prędzej porzuci narzędzie, jakim są sieci 
neuronowe, niż zdecyduje się na dokładne studiowania ich teorii. „Nie kupuje się browaru, gdy 
chce się wypić szklankę piwa” - to popularne powiedzenie dość wiernie oddaje istotę dylema- 
tu, przed którym stoi opisywany tutaj badacz lub praktyk. 


Właśnie dla takich osób, chcących używać sieci neuronowych bez zagłębiania się w szczegóły 
wiedzy na ich temat - przeznaczona jest ta książka. Leksykon zbudowany został w taki sposób, 
by czytelnik innego artykułu czy innej książki napotkawszy na niezrozumiały termin - mógł 
zajrzeć do Leksykonu, otrzymać jak najszybciej wytłumaczenie dręczącej go kwestii i żeby 
mógł zaraz powrócić do czytania tego, co go naprawdę interesuje. Dlatego poszczególne hasła 
opracowano tak, by żadne z nich nie zajmowało w większości przypadków więcej niż jednej 
stronicy - włączając w to zarówno tekst, jak i obowiązkowy rysunek. Leksykon objaśnia więc 
poszczególne znajdujące się w nim hasła, terminy i pojęcia bardzo przystępnie, ale też bardzo 
krótko. Przy pisaniu Leksykonu zdarzało się jednak często, że starając się wyjaśnić maksymalnie 
zwarcie jedno pojęcie -- musieliśmy w objaśnieniu użyć innych specjalistycznych terminów. 
Bardzo często takie terminy będą dla czytelnika zrozumiałe intuicyjnie, ale pisząc Leksykon za- 
kładaliśmy, że nic nie jest oczywiste i dla każdego terminu jest zbudowana osobna strona, za- 
wierająca jego objaśnienie. W tradycyjnej książce konieczność zaglądania (w razie potrzeby) do 
dodatkowych objaśnień byłaby bardzo uciążliwa i kłopotliwa. Na szczęście ta książka wydana 
jest w formie elektronicznej, co powoduje, że przy jej studiowaniu można korzystać z łączników 
hipertekstowych. Dzięki tym łącznikom można w każdej chwili kliknąć niezrozumiałe słowo 
i natychmiast dostać kolejne krótkie i zwarte objaśnienie - jeśli oczywiście budzące wątpliwości 
słowo ma w Leksykonie swoją reprezentację. Ale to ostatnie łatwo jest rozpoznać, bo słowa za- 
wierające łączniki hipertekstowe są dyskretnie wyróżnione w tekście. 


Dzięki małej objętości i popularnej formie informacje zawarte w Leksykonie można łatwo po- 
zyskać i przyswoić, uzyskując w ten sposób swoistą „przepustkę” do czytania innych książek 
i artykułów mówiących o zastosowaniach sieci neuronowych. 
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Na koniec tego wstępu powtórzmy jeszcze raz to, co zostało napisane w monografii [9], 
w której zawarty był Dodatek zatytułowany Kompendium sieci neuronowych, będący swo- 
istym prototypem tego Leksykonu: 


„Zasób wiedzy zgromadzonej w Leksykonie jest naprawdę minimalny. Jest on jak żelazna 
racja żywności w szalupie albo jak samochodowa apteczka na wycieczce. Taki zestaw-minimum 
może pomóc w nagłej potrzebie, ale nie da się przy jego pomocy nasycić ani wyleczyć. Dlatego 
korzystając z Leksykonu Czytelnik musi mieć świadomość, że po bardziej obszerne wyjaśnie- 
nia czy po bardziej szczegółowe informacje będzie musiał sięgnąć do dalszych źródeł." 


Na przykład do książek wymienionych w bibliografii w pozycjach od [1] do [7]. Chociaż nie 
są to książki wyłącznie najnowsze, do dziś nie straciły one aktualności, bo mimo ogromnego 
postępu w zakresie zastosowań sieci neuronowych, ich podstawy teoretyczne, zasady działa- 
nia i ogólne właściwości - w gruncie rzeczy nie zmieniły się od lat 90. XX wieku! 
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Agregacja danych wejściowych 


Jest to pierwsza czynność, jaką wykonuje neuron. Ponieważ neuron ma zwykle wiele wejść 
i jedno wyjście - konieczne jest przekształcenie wielu danych wejściowych w jeden wy- 
padkowy sygnał sumarycznego pobudzenia, który kształtuje potem sygnał wyjściowy 
neuronu za pośrednictwem wybranej funkcji aktywacji. 


n 
e TS LABEL pe 1 3 Ae 
Agregacja liniowa ` $ ) WE, 
i=l 


3 


n * 
Agregacja radialna s= 3 (w, =y ) 


i=l 


W neuronach stosuje się różne formuły agregacji danych wejściowych, najczęściej jednak 
stosowana jest pokazana na rysunku agregacja liniowa (u góry) albo agregacja radialna 
(u dołu rysunku). 
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Algorytm genetyczny 


Metoda optymalizacji używana między innymi do wyboru najlepszej struktury sieci neuro- 
nowej. Schemat postępowania przy korzystaniu z algorytmu genetycznego jest przedstawiony 
na rysunku. Na początku wybierana jest pewna liczba początkowych rozwiązań (na przykład 
struktur sieci w ramach rozwiązania określanego jako genetyczna sieć neuronowa) tworzą- 
cych POPULACJĘ. Rozwiązania te konfrontuje się z zadaniem, które należy rozwiązać (wszystkie 
sieci podlegają uczeniu) a następnie przeprowadzana jest SELEKCJA (w przypadku sieci neu- 
ronowej kryterium selekcji jest egzamin). Te rozwiązania, które przeszły pozytywnie selekcję 
(miały lepsze wyniki na egzaminie), poddawane są operacji KRZYŻOWANIA (wybrane losowo 
pary rozwiązań wymieniają losowo wybrane części swoich parametrów), tworząc rozwiązania 
potomne. Po wprowadzeniu dodatkowych losowych korekt nazywanych MUTACJAMI, rozwiąza- 
nia potomne zastępują w POPULACJI rozwiązania rodzicielskie - i cykl się powtarza. 


POPULACJA SELEKCJA 


MUTACJA KRZYŻOWANIE 
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Algorytm samouczenia 


Jest to metoda całkowicie samodzielnego dostosowywania się sieci neuronowej do anali- 
zy danych pojawiających się na jej wejściu bez żadnego komentarza ani wyjaśnienia. Sieć 
samoucząca potrafi takie dane automatycznie porządkować, dzielić na grupy, identyfikować 
i kategoryzować. Należy podkreślić, że w odróżnieniu od uczenia, kiedy sieć wyłącznie po- 
zyskuje wiedzę pochodzącą od nauczyciela - przy samouczeniu musi ona tę wiedzę niejako 
sama odkrywać, co stwarza zupełnie nowe możliwości zastosowań. 


Podobnie jako przy algorytmie uczenia możliwości zastosowania rozważanej klasy sieci 
wynikają z tego, że wytrenowana sieć neuronowa zdobytą wiedzę potrafi uogólniać (gene- 
ralizacja). Powoduje to, że samodzielnie stworzone przez sieć kryteria kategoryzacji i klasy- 
fikacji danych wejściowych mogą być wykorzystane także do tego, żeby klasyfikować bądź 
kategoryzować nowe dane, których sieć nie miała możności poznać w procesie samouczenia. 
Oczywiście te dane, na które sieć uogólnia swoją wiedzę, powinny należeć do tej samej klasy 
problemów, jak dane wykorzystywane podczas samouczenia. 


ke a 


Samouczenie - krok 1 


=p 


Samouczenie - krok 2 


Egzamin 
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Wadą samouczenia jest to, że sieć wprawdzie całkiem sama zdobywa wiedzę (czy może na- 
wet samodzielnie ją tworzy) - ale użytkownik nie ma żadnego wpływu na to, w jakiej formie 
ta wiedza jest przedstawiona na wyjściu sieci. W związku z tym interpretacja wyników sa- 
mouczenia oraz rozwiązań dostarczanych przez wytrenowaną samouczącą się sieć w trakcie 
egzaminu wymaga pewnego wysiłku. Użytkownik musi najpierw zrozumieć, co sieć sygna- 
lizuje i w jaki sposób - a dopiero potem może odnosić korzyści z samouczącej się sieci. 


Najbardziej znanym przykładem sieci samouczącej się jest sieć Kohonena. 
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Algorytm uczenia 


Jest to metoda dostosowywania sieci neuronowej, będącej potencjalnie narzędziem moż- 
liwym do wykorzystania w kontekście różnych zastosowań, do rozwiązywania określonego 
typu zadań, wyspecyfikowanych poprzez przykłady rozwiązań zawarte w zbiorze uczącym. 
Działanie algorytmu uczenia polega na pokazywaniu kolejnych przypadków uczących wraz 
z informacją podawaną przez nauczyciela, dotyczącą wymaganej poprawnej odpowiedzi 
sieci (tak zwana odpowiedź wzorcowa). Szczegóły algorytmu uczenia (a właściwie wielu 
różnych algorytmów, bo jest ich znanych obecnie kilkadziesiąt, jeśli nie kilkaset) są zbyt zło- 
żone na to, żeby je tu można było przedstawić. Ogólna idea procesu uczenia polega na 
minimalizacji funkcji błędu. Podczas działania algorytmu uczenia dochodzi do iteracyjnego 
modyfikowania wag w sieci neuronowej. Kryterium zatrzymania algorytmu związane jest 
z wykorzystaniem zbioru walidacyjnego sygnalizującego moment, kiedy sieć zaczyna tracić 
zdolność generalizacji wyników uczenia. 


Egzamin 


Uczenie - krok 2 


Po wykonaniu wielu kroków uczenia sieć jest gotowa do egzaminu, który sprawdza jej wie- 
dzę i zdolność do jej generalizacji. 
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Analiza wrażliwości 


Jeżeli w rozwiązywanym przez sieć neuronową problemie jest niewiele nieistotnych da- 
nych wejściowych a istnieje potrzeba zmniejszenia ich ilości, to można je wyeliminować 
na podstawie analizy wrażliwości. Analiza ta prowadzona jest po uczeniu sieci neurono- 
wej i wykazuje, które dane wejściowe są najbardziej istotne. Poznajemy to poprzez analizę 
wzrostu błędu w przypadku eliminacji z danych wejściowych poszczególnych zmiennych. 
Usuwając z danych wejściowych pojedyncze zmienne uznane za nieistotne należy za każdym 
razem przeprowadzać proces uczenia sieci od początku. 


Sieć Sieć Sieć 
bez usuniętych z usuniętą daną z usuniętą daną 
danych nieistotną istotną 
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Autoasocjacyjna sieć neuronowa 


Jako autoasocjacyjna określana jest sieć neuronowa, w której warstwa wejściowa ma ten 
sam rozmiar (tę samą liczbę neuronów), co warstwa wyjściowa. Ponadto uczenie takiej 
sieci zmierza do wiernego odtworzenia na wyjściu przyjętych danych wejściowych. Uza- 
sadnieniem dla stosowania takiej struktury sieci jest fakt, że pomiędzy warstwą wejściową 
sieci a warstwą wyjściową jest zwykle przynajmniej jedna warstwa ukryta, zawierająca 
znacznie mniej neuronów niż warstwy wejściowa i wyjściowa. W tej pośredniej warstwie 
wytwarzana jest skompresowana reprezentacja danych, zaś struktura sieci pomiędzy war- 
stwą wejściową a wspomnianą warstwą pośrednią staje się narzędziem do kompresji da- 
nych. Z kolei ta część sieci, która rozciąga się od warstwy pośredniej do warstwy wyjściowej 
staje się narzędziem do dekompresji. 


Dane do 
kompre- 
sji 


8 SVKAAKA 


Sieci autoasocjacyjne bywają też wykorzystywane do realizacji nieliniowej transformacji PCA. 


20 


Backpropagation 


Patrz hasło: Wsteczna propagacja błędów. 
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BIAS - wyraz wolny 


Większość wag w sieci neuronowej ma związek z sygnałami pojawiającymi się na wejściach 
poszczególnych neuronów. Sygnały te pochodzą albo od danych wejściowych podawanych 
do sieci jako opis zadania, które należy rozwiązać, albo z wyjść neuronów należących do wcze- 
śniejszej warstwy sieci. Czasami przy uczeniu sieci przydatne okazują się wagi, które nie 
są związane z żadnym z sygnałów. Takie wyrazy wolne w równaniach opisujących neurony 
oraz całe sieci pozwalają lepiej reprezentować zadania, które sieć powinna rozwiązywać. Dla 
ujednolicenia opisu neuronów korzystających z takich wyrazów wolnych i tych, które z nich 
nie korzystają, wprowadza się często do struktury sieci neuronowej generatory sztucznego 
pseudo-sygnału, określanego mianem BIAS. Sygnał ten ma z definicji zawsze wartość + 1 i jest 
podawany na dodatkowe wejście neuronu. Waga związana z tym sygnałem podlega jednak 
procesowi uczenia podobnie jak wszystkie inne wagi, z tym że w odpowiednich formułach 
algorytmu uczenia w miejscu rzeczywistych sygnałów - występuje BIAS. 


BIAS y, 
X= l 
W, 
X — 


21 


ER 


Leksykon sieci neuronowych 


Błąd 


Dla neuronów należących do warstwy wyjściowej jest to miara rozbieżności pomiędzy 
wartościami danych wyjściowych na wyjściach tych neuronów a wartościami odpowie- 
dzi wzorcowych zawartych w zbiorze uczącym. Dla neuronów w warstwach ukrytych błąd 
musi być wyznaczany poprzez wsteczną propagację. 


Błąd jest bardzo ważnym pojęciem w procesie uczenia sieci, ponieważ wagi w poszczegól- 
nych neuronach sieci modyfikuje się w taki sposób, by minimalizować popełniany przez sieć 
błąd. 


Zbiór uczący 


X X D X D; D, 


Podanie danych wejściowych 
dla i-tego przykładu uczącego 


AES O AE DZ WA OO AOC KKA AOC 


Dostarczenie odpowiedzi wzorcowej dla i-tego 
przykładu uczącego D, D, celem wyznaczenia 
błędów w odpowiedziach sieci Y; oraz Y, 


Proces uczenia sieci neuronowej można w związku ztym traktować jako proces minimalizacji 
funkcji błędu. 
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Dane wejściowe 


Są to informacje w formie sygnałów podawanych do wejść neuronów należących do war- 
stwy wejściowej sieci. Uważa się, że dane wejściowe dostarczają wszystkie informacje nie- 
zbędne do tego, żeby sieć mogła rozwiązać postawiony problem. Dane wejściowe powinny 
być odpowiednio przygotowane, żeby mogły prawidłowo działać w sieci neuronowej. 
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Leksykon sieci neuronowych 


Dobór danych wejściowych 


W sytuacji gdy dysponujemy niewielką liczbą przypadków uczących zalecane jest przepro- 
wadzenie selekcji danych wejściowych w celu zmniejszenia liczby wag koniecznych do 
wyznaczenia w procesie uczenia. Jest kilka metod, których można użyć: 


1. Metoda siłowa (brute force). Tworzone są sieci wykorzystujące wszystkie możliwe 
podzbiory zbioru danych wejściowych. Jeżeli zostanie zastosowana taka sama 
metoda uczenia do wszystkich tych sieci, to wybór najlepszego zestawu danych 
wejściowych może być podyktowany najmniejszą wartością błędu uzyskanego po 
uczeniu na zbiorze walidacyjnym. 

2. Usuwanie danych silnie skorelowanych. Metoda polega na wyznaczeniu korelacji par 
danych wejściowych i usunięcie jednej ze zmiennych z tych par, dla których współ- 
czynnik korelacji jest większy niż przyjęty próg, np. 0,9. 

3. Usuwanie danych o niskiej wariancji. Jeżeli wariancja zmiennej wejściowej jest niska, 

to jej wartość informacyjna jest najprawdopodobniej niewielka i można ją pominąć. 

„ Analiza wrażliwości - omówiona osobno. 

„ Transformacja PCA - omówiona osobno. 

. Algorytmy genetyczne - omówione osobno. 

„ Genetyczne sieci neuronowe - omówione osobno. 


"JO O = 


Usuwanie danych 
Analiza wrażliwości 
Usuwanie danych o niskiej 
wariancji 
Usuwanie danych silnie 
skorelowanych 


Patrz także hasło: Dobór danych wejściowych - przykład. 
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Dobór danych wejściowych - przykład 


Przedstawiony przykład ilustruje dobór danych wejściowych, przeprowadzany dla konkret- 
nego zadania, metodą wykorzystującą analizę wrażliwości. 


W zadaniu, którego celem było prognozowanie zapotrzebowania na energię cieplną dla Kra- 
kowa, zastosowano początkowo sieć uwzględniającą 10 danych wejściowych. Otrzymano 
błąd prognozy 7,2%. Przeprowadzono analizę wrażliwości i stwierdzono, że trzy zmienne 
wejściowe można wyeliminować. Zmodyfikowana sieć (o 7 wejściach) po nauczeniu miała 
błąd prognozy 1,8%. Powtórzono procedurę, eliminując kolejne dwie najmniej wartościowe 
dane wejściowe. Sieć po tej kolejnej redukcji (5-wejściowa) miała jednak aż 22,3% błędu. 
Jak widać, przy redukcji danych wejściowych trzeba zachować umiar. 
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Leksykon sieci neuronowych 


Dane wyjściowe 


Są to informacje w formie sygnałów pojawiające się na wyjściach neuronów wyjściowej 
warstwy sieci. Informacje te podają rozwiązanie postawionego problemu. Zwykle, żeby 
wykorzystać dane wyjściowe jako rozwiązanie problemu, trzeba je odpowiednio zinterpre- 
tować, bo same wartości pojawiające się na wyjściach neuronów należących do wyjściowej 
warstwy sieci nie zawsze są same z siebie wystarczająco zrozumiałe. Sposób interpretacji da- 
nych wyjściowych zdefiniowany jest najczęściej w zbiorze uczącym. Zawarte w tym zbiorze 
odpowiedzi wzorcowe pokazują, jak należy rozumieć poszczególne dane wyjściowe w kon- 
tekście zadań, które sieć ma rozwiązywać po nauczeniu. 
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Dostosowanie rozwiązywanego problemu do użycia 
sieci neuronowej 


Przy pomocy sieci neuronowej można rozwiązywać różne problemy, zwykle jednak zanim 
użyje się sieci, trzeba rozwiązywany problem dostosować do jej użycia. Dostosowanie to po- 
lega na odpowiednim przygotowaniu ilościowych danych wejściowych dla sieci neuro- 
nowej oraz (jeśli zachodzi potrzeba) przygotowaniu jakościowych danych wejściowych 
dla sieci neuronowej, a także na ustaleniu odpowiedniej interpretacji jakościowych da- 
nych wyjściowych z sieci neuronowej (zmienne wyjściowe o charakterze ilościowym na 
ogół specjalnej interpretacji nie wymagają). 


Lët 


Stawianie sieci zadania bywa bardzo trudne bez wskazanego tu dostosowania (zarówno przy 
procesie uczenia, jak i w trakcie egzaminu) oraz trudno jest wykorzystywać dane wyjścio- 
we uzyskiwane z sieci do generacji rozwiązań postawionego problemu. 
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Duża sieć neuronowa 


Schematy sieci neuronowych przedstawianych w poszczególnych hasłach tego Leksykonu są 
na ogół przedstawiane w taki sposób, że zawierają niewiele neuronów w poszczególnych 
warstwach i w efekcie niewiele połączeń (porównaj na przykład rysunek w haśle struktu- 
ra sieci). Tymczasem prawdziwe sieci neuronowe, używane przez Autorów różnych artykułów 
naukowych, zawierają mnóstwo neuronów ukrytych oraz najczęściej przynajmniej kilka wyjść. 
Przykładowy schemat takiej dużej sieci neuronowej przedstawia poniższy rysunek, na którym 
widać, że w dużej sieci trudno jest prześledzić strukturę i niewygodnie jest wnioskować na 
temat jej działania - stąd celowość przedstawiania na schematach sieci uproszczonych. 
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Leksykon sieci neuronowych 


Potoczna nazwa procesu testowania efektów uczenia lub samouczenia sieci neuronowej. 
Podczas egzaminu powinno się używać zadań (przypadków uczących), których prawidłowe 
rozwiązania są znane, ale które nie były wcześniej używane ani w charakterze elementów 
zbioru uczącego, ani elementów zbioru walidacyjnego. Często dla potrzeb egzaminu two- 
rzy się specjalny zbiór testowy. Zasadniczym celem egzaminu jest sprawdzenie zdolności 
sieci do generalizacji zdobytej wiedzy. Przykład egzaminu sieci neuronowej przedstawia 
rysunek poniżej. 


Zbiór uczący 
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Odpowiedzi sieci podczas egzaminu mogą nie być tak kategoryczne jak podczas uczenia, 
ale jeśli sygnał optujący za prawidłowym rozwiązaniem jest silniejszy niż sygnał odpowiedzi 
fałszywej - egzamin można uznać za zaliczony. 
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Eliminacja zbędnych połączeń 


Stosowana powszechnie przy tworzeniu warstwowych sieci neuronowych zasada połączeń 
„każdy z każdym” skutkuje tym, że w sieci neuronowej przed rozpoczęciem procesu ucze- 
nia wiele połączeń jest niepotrzebnych. Z góry nie wiadomo, które połączenia są zbędne, ale 
można je eliminować już po nauczeniu sieci, ponieważ jako zbędne można zakwalifikować 
te wszystkie połączenia, dla których zakończony sukcesem proces uczenia ustalił zerowe lub 
bliskie zera wartości wag. Usuwanie zbędnych połączeń wiąże się często z usuwaniem zsieci 
niepotrzebnych neuronów - takich, których wyjścia na skutek eliminacji połączeń przestały 
być wykorzystywane przez inne neurony sieci. Sieć z usuniętą częścią połączeń bywa doucza- 
na, w wyniku czego możliwa staje się eliminacja kolejnych zbędnych połączeń. 


Usuwanie zbędnych połączeń bywa często określane angielskich słowem pruning, ozna- 
czającym oryginalnie przycinanie roślin (drzew owocowych, winorośli, żywopłotów itp.) 
w ogrodnictwie. Typowy pruning w sieci neuronowej przedstawia rysunek. Autorzy wiedzą 
o tym, że opisy na schematach kolejnych wersji sieci, w której dokonywano redukcji połą- 
czeń, są nieczytelne. Nie ma to jednak znaczenia, bo istotny jest tylko proces upraszczania 
struktury sieci, który jest dobrze widocznie i łatwo interpretowalny. Napisy pozostawiono, 
żeby uwidocznić fakt, że rysunki pochodzą z rzeczywistych badań rzeczywistej sieci neurono- 
wej, a nie zostały sporządzone jedynie na podstawie wyobrażeń badacza. 


unkcja celu= 20490-01 Desch 440) 


Eliminacja 80% 
zbędnych połączeń! 


funkcja celu= 2.2120-01 (teracja 294) 


funkcja celus 2.067e-01 (tercja 426) 
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Epoka 


Podczas uczenia sieci neuronowej trzeba wykonać bardzo wiele kroków algorytmu ucze- 
nia zanim błąd stanie się akceptowalnie mały. Tymczasem zbiór uczący zawiera zwykle ogra- 
niczoną liczbę przypadków uczących, w typowych przypadkach setki lub nawet tysiące razy 
mniej liczną niż liczba koniecznych kroków algorytmu uczenia. Z tego zestawienia wynika, że 
zbiór uczący musi być wykorzystywany w procesie uczenia wielokrotnie. Dla zaznaczenia 
tego faktu wprowadzono pojęcie epoki, rozumiejąc pod tym pojęciem jednorazowe użycie 
w procesie uczenia wszystkich przypadków uczących zawartych w zbiorze uczącym. Po 
wykonaniu wszystkich kroków należących do jednej epoki algorytm uczący dokonuje oceny 
zdolności sieci do generalizacji wyników uczenia przy wykorzystaniu zbioru walidacyjne- 
go. Po stwierdzeniu, że zarówno błąd obliczany na zbiorze uczącym, jak i błąd wyznaczony 
dla zbioru walidacyjnego nadal jeszcze obiecująco maleją - algorytm uczący wykonuje 
następną epokę. W przeciwnym przypadku proces uczenia zostaje zatrzymany. 


Gdyby w kolejnych epokach przypadki uczące pokazywać stale w tej samej kolejności - 
to istniałaby obawa, że proces uczenia może zmieniać wagi w kółko, powracając po każ- 
dym cyklu do punktu wyjścia. Przedstawia to rysunek, na którym po lewej stronie pokazano 
właśnie taki „zapętlony” proces zmiany wag, nie prowadzący do nauczenia sieci nawet po 
bardzo długim procesie uczenia. Na rysunku pokazano cykliczne zmienianie się wartości 
dwóch wybranych wag (bo tylko to można pokazać na rysunku), ale podobny niekorzystny 
proces zachodzi także dla wszystkich innych wag w całej sieci. 


Zapętleniu uczenia można zapobiec poprzez randomizację zbioru uczącego, to znaczy poprzez 
zmianę kolejności pokazywania poszczególnych przypadków uczących w kolejnych epokach. 
Wtedy proces zmiany wag w trakcie uczenia porządkuje się i wyraźnie widać, że zmierza do okre- 
ślonego celu, odpowiadającego optymalnemu zestawowi wag zapewniającemu rozwiązywanie 
stawianych sieci zadań z minimalnym błędem (co pokazano na rysunku po prawej stronie). 
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Feedforward 


Patrz hasło Jednokierunkowa sieć neuronowa. 
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Leksykon sieci neuronowych 


FNN (Fuzzy Neural Network) 


Patrz hasło sieć neuronowo-rozmyta. 


33 


34 


Leksykon sieci neuronowych 


Funkcja aktywacji 


Po agregacji danych wejściowych z uwzględnieniem wag powstaje sygnał sumaryczne- 
go pobudzenia. Rola funkcji aktywacji polega na tym, że musi ona określić sposób oblicza- 
nia wartości sygnału wyjściowego neuronu na podstawie wartości tego sumarycznego 
pobudzenia. W literaturze rozważano wiele różnych propozycji funkcji aktywacji, jednak 
do powszechnego użytku weszły właściwie cztery z nich: funkcja liniowa (neuron linio- 
wy), funkcja sigmoidalna (neuron sigmoidalny), funkcja tangensoidalna (dokładnie jest 
to funkcja tangens hiperboliczny, ale skrótowo mówi się właśnie neuron tangensoidalny) 
oraz funkcja Gaussa (neuron radialny). 


- - - Liniowa 


05 


- + - Sigmoidalna 
—- Tangensoidalna 


—— Gaussa 


Osobnym (niepokazanym na rysunku) typem funkcji aktywacji jest funkcja hiperboliczna 
(wyliczana jako odwrotność argumentu) używana w neuronach Kohonena. 
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Funkcja błędu 


Błąd popełniany przez sieć neuronową zależny jest od współczynników wag występujących 
w sieci i doskonalonych przez algorytmy uczenia. Jeśli wyobrazimy sobie (patrz rysunek), że 
w danym momencie procesu uczenia w sieci został ustalony pewien zestaw wag (nazwany 
na rysunku pierwszym zestawem) i jeśli przy tym zestawie wag przeprowadzimy egzamin, to 
uzyskamy pewną wartość błędu, przedstawioną na rysunku przy pomocy pionowej strzałki. 
Jeśli wartość zestawu wag się zmieni (na przykład w wyniku uczenia) i będziemy mieli do 
czynienia z drugim zestawem - to dla niego także można będzie wyznaczyć błąd i przedstawić 
go - jak na rysunku - przy pomocy niższej strzałki. Jeśli taką czynność wystawiania pionowych 
strzałek oznaczających wartości błędów wykonamy w każdym punkcie szarej płaszczyzny, re- 
prezentującej na rysunku wszystkie możliwe zestawy wag - to wierzchołki strzałek wyznaczą 
pewną powierzchnię rozpiętą ponad szarą płaszczyzną. Właśnie ta powierzchnia to potrzebna 
do wielu celów (między innymi w opisie procesu uczenia) funkcja błędu. 


Wielkość 
błędu 
popełnianego 
przez sieć E 
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Pierwszy współczynnik wagowy W; 
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Leksykon sieci neuronowych 
Do rysunku dodać trzeba pewien komentarz: 


Żeby można było przedstawić na tym rysunku proces budowy funkcji błędu - trzeba było 
założyć, że funkcja ta zależy wyłącznie od dwóch współczynników wagowych rozpinających 
na rysunku szarą płaszczyznę. Jest to bardzo daleko idące uproszczenie, ponieważ w rzeczy- 
wistości funkcja błędu sieci neuronowej zależy od wszystkich wag występujących w całej 
sieci - a tych wag są setki, a czasem tysiące. Jednak funkcji zależnej od tysiąca zmiennych 
narysować się nie da, więc przedstawiono rysunek sytuacji uproszczonej (wyidealizowanej), 
żeby wytworzyć u Czytelnika ogólną intuicję. Ta intuicja pozwala też zrozumieć, co się dzieje 
w tej wielowymiarowej przestrzeni wag podczas rzeczywistego procesu uczenia. 
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Generalizacja 


Proces uczenia opiera się zawsze na zbiorze uczącym, który zawiera przypadki uczące, czyli 
zadania wraz ze znanymi poprawnymi rozwiązaniami (odpowiedzi wzorcowe). Jednak sens 
użycia sieci neuronowej polega na tym, że musi ona (po nauczeniu) rozwiązywać zadania po- 
dobne do tych, na których była uczona - ale nie identyczne z nimi. Takie przeniesienie nabytej 
wiedzy na nowe przypadki nazywane jest generalizacją. Zagrożeniem dla generalizacji jest 
przeuczenie. Gdy sieć jest przeuczona - następuje nadmierne dopasowanie jej zachowania do 
drugorzędnych (nieistotnych) szczegółów konkretnych przypadków uczących - nie mających 
istotnego znaczenia z punktu widzenia istotnych cech rozwiązywanego zadania. Na rysunku 
pokazano to na przykładzie działania prostej sieci, której zadaniem jest odtworzenie przebiegu 
funkcji jednej zmiennej na podstawie zbioru punktów tworzących zbiór uczący. 


Y o- Przypadki uczące © - Przypadki uczące 
© - Przypadki walidacyjne T e Przypadki walidacyjne 


Sieć zachowująca dobrą Sieć która utraciła zdolność 
zdolność generalizacji generalizacji 


Do kontroli tego, czy sieć nie zatraciła zdolności do generalizacji, używa się zbioru walida- 
cyjnego. 
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Genetyczna sieć neuronowa 


Genetyczne Sieci Neuronowe (Genetic Neural Networks - GNN) są połączeniem koncepcji 
optymalizacji za pomocą algorytmów genetycznych oraz modelowania za pomocą sieci 
neuronowych. GNN mają tę przewagę nad klasycznymi sieciami neuronowymii, że w trak- 
cie ich optymalizacji przeprowadzone zostaje nie tylko uczenie samych sieci, ale jeszcze do- 
bór optymalnej struktury sieci neuronowej oraz wektora wejściowego. 


GNN optymalizują się przy użyciu algorytmów genetycznych. Populacja tworzona jest 
przez sieci neuronowe charakteryzujące się zarówno różnymi danymi wejściowymi oraz/ 
lub ilością neuronów warstwy ukrytej. 


Podstawową zaletą stosowania GNN jest fakt, że funkcja przystosowania ocenia jakość nie- 
liniowych modeli neuronowych i dlatego nie zachodzi niebezpieczeństwo wyeliminowania 
w czasie procedury optymalizacyjnej jakiegoś kluczowego nieliniowego związku. Ponadto 
metoda dostarcza zestawu dobrze działających sieci, które są w stanie rozwiązać dany pro- 
blem często na różne, komplementarne sposoby. Wadą procedury GNN jest wysoki koszt 
obliczeniowy ze względu na iteracyjne trenowanie każdej sieci (np. 100 epok) w populacji 
(np. 100 modeli) w każdym pokoleniu ewolucji (np. 1000 pokoleń). 


EWALUACJA KRZYŻOWANIE 
POPULACJA UCZENIE ` |SELEKCJA ` IMUTACJA 


Patrz także przebieg genetycznej optymalizacji sieci. 
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GRNN (Generalized Regression Neural Networks) 


Szczegóły na temat budowy tej sieci: patrz hasło sieć uogólnionej regresji. W sieci GRNN 
wykorzystuje się połączenie właściwości neuronów RBF (z charakterystyką w formie funkcji 
Gaussa) oraz neuronów MLP (z charakterystyką sigmoidalną), co pozwala modelować wyjąt- 
kowo wyrafinowane zależności nieliniowe. Rysunek pokazuje, jak w sieci GRNN dochodzi do 
wytworzenia takiej złożonej nieliniowej zależności. 


A0 
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Hopfielda sieć 


Jest to szczególny przypadek sieci rekurencyjnej. Sieć Hopfielda to sieć jednowarstwowa o re- 
gularnej budowie, składająca się z wielu neuronów połączonych każdy z każdym. Połączenie 
wyjścia neuronu kz wejściem neuronu j związane jest z wagą w,. Połączenia takie są zdefi- 
niowane dla wszystkich k i j, co formuje ogromną liczbę sprzężeń zwrotnych zawartych w takiej 
sieci. Nie istnieją jednak sprzężenia zwrotne obejmujące ten sam neuron. Oznacza to, że sy- 
gnał wyjściowy danego neuronu nie trafia na jego wejście, a więc wartości wag w,są równe 0. 


Ze względy na stabilność zachowania sieci zakłada się, że wagi w tej sieci są symetryczne, tzn. 
waga wkj łącząca neuron kz neuronem j jest równa wadze w, łączącej neuron jz neuronem k. 


Sieć Hopfielda podczas uczenia modyfikuje swoje wagi w,, w zależności od wartości wek- 
tora wejściowego. W trybie odtworzeniowym wagi nie ulegają modyfikacjom, natomiast 
sygnał wejściowy pobudza sieć, która poprzez sprzężenie zwrotne wielokrotnie przyjmuje 
na swoje wejście sygnał wyjściowy, aż do ustabilizowania odpowiedzi. 


Sieci Hopfielda są wykorzystywane jako pamięci skojarzeniowe (zwłaszcza autoasocjacyjne) 
oraz jako narzędzia do znajdowania przybliżonych rozwiązań problemów optymalizacyjnych. 
Najbardziej znane osiągnięcie w tym zakresie dotyczy uzyskania za pomocą sieci Hopfiel- 
da przybliżonych (ale zadowalających z praktycznego punktu widzenia) rozwiązań znanego 
„problemu komiwojażera”. 
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Inicjalizacja wag 


Zanim sieć zacznie się uczyć z wykorzystaniem określonego algorytmu uczenia, podlega- 
jące uczeniu parametry sieci (najczęściej wagi) muszą mieć nadane wartości początkowe 
- żeby można je było w procesie uczenia poprawiać. To nadawanie wartości początkowych 
nazywa się inicjalizacją wag i polega na tym, że wagom nadaje się wartości losowe - prze- 
ważnie niewielkie pod względem wartości bezwzględnej, żeby ich zmiana w trakcie procesu 
uczenia nie nastręczała trudności. Na rysunku pokazano histogram wag po inicjalizacji przy 
pomocy algorytmu znanego jako Nguyen-Widrow Randomization. 


Liczba wag, którym nadano 
właśnie takie wartości 


Wartości początkowe nadane 
wagom sieci 


Dla przypomnienia: Histogram jest to wykres pokazujący, jak często wystąpiły w sieci wagi 
o różnych wartościach. Widać, że większość wag ma wartości początkowe bliskie zera, chociaż 
bardzo duże dodatnie i ujemne wartości także się zdarzają. Samo zero jest na ogół wykluczane, 
bo połączenie z zerową wagą funkcjonuje tak, jak brak połączenia, więc sieć, w której na po- 
czątku byłyby ustawione wagi zerowe, byłaby pozbawiona niektórych swoich połączeń. 
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Interpretacja jakościowych danych wyjściowych z sieci 
neuronowej 


Jeśli w wyniku działania sieci powstają dane wyjściowe w postaci liczbowej - to właściwie sta- 
nowią one rozwiązanie podjętego problemu i poza ewentualnym przeskalowaniem nie wyma- 
gają żadnych dodatkowych zabiegów. Jeśli jednak sieć ma wyprodukować dane o charakterze 
jakościowym (to znaczy zasugerować decyzję lub wybrać jedną z możliwości), to stosujemy ko- 
dowanie jeden-z-N opisane w haśle przygotowanie jakościowych danych wejściowych dla 
sieci neuronowej. Zakładając, że sieć ma dostarczyć rozwiązania w postaci wskazania jednej 
z N możliwości, buduje się sieć mającą N neuronów wyjściowych. Każdej możliwości odpowia- 
da jeden neuron w warstwie wyjściowej. Neurony wyjściowe produkują sygnały zgodne (naj- 
częściej) z sigmoidalną funkcją aktywacji, czyli przyjmujące wartości od 0 do 1. Aby przyjąć 
decyzję, że dana wyjściowa jest równa i-tej możliwości, muszą być spełnione warunki: 


wartość wyjścia i-tego neuronu - wyższa od poziomu akceptacji, 
wartości wyjść pozostałych neuronów - niższe od poziomu odrzucenia. 


Dla każdego neuronu o numerze i 


głos za przyjęciem możliwości i 


Próg akceptacji 


pok" ET EE TEE 


Próg odrzucenia 


O tym, co zrobić, jeśli podane wyżej warunki nie są spełnione, użytkownik sieci musi zde- 
cydować, biorąc pod uwagę charakter rozwiązywanego zadania. Czasem można się zgodzić 
na wybór możliwości i nawet w przypadku, gdy wyjście z neuronu i nie przekracza progu 
akceptacji, ale grozi to błędną klasyfikacją danych wejściowych. 
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Jednokierunkowa sieć neuronowa 


Sieci neuronowe budowane są zazwyczaj w taki sposób, że przepływ sygnałów odbywa się 
w nich wyłącznie w kierunku od wejścia (poprzez ewentualne warstwy ukryte) do wyjścia. 
Wykluczony jest przepływ sygnałów w drugą stronę, co powoduje, że sieci tego typu są prze- 
ciwstawiane sieciom rekurencyjnym. Sieci spełniające wyżej podany warunek nazywane 
są sieciami jednokierunkowymi albo sieciami typu feedforward. Sam przepływ sygnałów 
w jednym kierunku (od wejścia do wyjścia) nie przesądza jeszcze o rodzaju sieci i zasadzie 
jej działania, gdyż wśród jednokierunkowych sieci neuronowych wyróżnić można między 
innymi wielowarstwowe perceptrony (sieci MLP), sieci radialne (RBF), sieci uogólnio- 
nej regresji (GRNN), probabilistyczne sieci neuronowe (PNN) i inne. W praktyce autorzy 
najczęściej utożsamiają nazwę sieci jednokierunkowej z siecią typu MLP. 
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Leksykon sieci neuronowych 


Każdy z każdym 


Zasada łączenia elementów sieci na zasadzie każdy z każdym wynika z faktu, że twórca sieci 
z góry nie wie, które połączenia okażą się potrzebne. Dlatego przy połączeniach międzywar- 
stwowych z reguły zakłada się, że każdy neuron wcześniejszej warstwy jest połączony z każ- 
dym neuronem następnej warstwy. Dla uniknięcia nieporozumień wyjaśnijmy, że warstwę 
uważa się za wcześniejszą, jeśli jest położona bliżej wejścia sieci. 
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W trakcie procesu uczenia sieci dochodzi do tego, że wagi niektórych połączeń otrzymują 
wartości zerowe, co powoduje, że odpowiadające im połączenia są w istocie nieaktywne. 
W wyniku tego dochodzi do redukcji połączeń i sieć po nauczeniu może zawierać o wiele 
mniej połączeń i może również nie używać wielu neuronów, które można wtedy bez szkody 
usunąć z jej struktury. 
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Kohonena sieć neuronowa 


Najbardziej znana i najczęściej stosowana sieć samoucząca się, realizująca zasadę samoor- 
ganizacji (SOM). Jest to także najbardziej znany przykład sieci konkurencyjnej wykorzystu- 
jącej koncepcję sąsiedztwa. W wyniku uczenia tej sieci powstaje mapa topologiczna, której 
aprioryczna interpretacja jest niemożliwa (bo sieć uczy się bez nauczyciela i użytkownik nie 
ma kontroli nad tym, co sieć robi). Jednak po uczeniu można zwykle ustalić, jakie znaczenie 
mają poszczególne rejony tej mapy (tworzonej przez sygnały wyjściowe pochodzące z war- 
stwy topologicznej) na podstawie analizy konkretnych przykładów danych wejściowych. 
Strukturę sieci Kohonena przedstawia rysunek, przy czym rysunek ten ma charakter jedynie 
orientacyjnego schematu, bowiem rzeczywiste sieci Kohonena cechują się tym, że działają 
w wielowymiarowych przestrzeniach danych wejściowych, w związku z czym warstwa wej- 
ściowa zawiera bardzo wiele neuronów (skojarzonych z wieloma sygnałami wejściowymi). 
Podobnie typowa warstwa topologiczna sieci Kohonena zawiera bardzo wiele neuronów, 
dzięki czemu sieć po nauczeniu może prezentować bardzo subtelne rozróżnienia i klasyfika- 
cje danych wejściowych. 


Warstwa 
topologiczna 


Warstwa 
wejściowa 
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Konkurencyjna sieć neuronowa 


W niektórych sieciach neuronowych wśród neuronów warstwy wyjściowej lub mapy 
topologicznej (to w przypadku sieci Kohonena) wprowadza się mechanizm konkurencji, 
polegający na tym, że sygnały wyjściowe tych neuronów porównuje się ze sobą. Po poda- 
niu określonego sygnału wejściowego do sieci - na jej wyjściu otrzymuje się sygnały 
o różnych wartościach pochodzące od różnych neuronów warstwy wyjściowej lub warstwy 
topologicznej. Wśród tych sygnałów odnajduje się ten, który ma największą wartość i ten 
neuron zostaje wskazany jako zwycięzca (patrz rysunek). Z faktu, że określony neuron został 
uznany za zwycięzcę, wynikają różne konsekwencje. W szczególności w niektórych sieciach 
na etapie uczenia zmiany wag dotyczą wyłącznie zwycięzcy oraz (niekiedy) jego sąsiedztwa. 
Wsieciach klasyfikacyjnych zwycięski neuron wskazuje poprawną kategoryzację sygnału 
wejściowego lub poprawne rozpoznanie obiektu reprezentowanego przez ten sygnał. 
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Korekta błędu 


Zmiana wartości parametrów sieci (najczęściej wag) mająca na celu zmniejszenie błędu 
popełnianego przez sieć. Ponieważ błąd wyznaczany jest podczas jednego kroku procesu 
uczenia, przeto korekta błędu nie może być zbyt radykalna, bo łatwo jest doprowadzić do sy- 
tuacji, w której zmiana parametrów wynikająca z pokazania jednego przypadku uczącego 
ze zbioru uczącego może popsuć wartości parametrów ustalone wcześniej dla innych przy- 
padków uczących. W praktyce wielkość korekty błędu determinuje współczynnik uczenia. 
Przebieg typowej korekty błędu przedstawia poniższy schemat. 


Zbiór uczący 


Dostarczenie danych wejściowych X 
celem wyznaczenia odpowiedzi Y i Y> 


Dostarczenie pożądanych wartości wyjściowych 
D. i D, celem wyznaczenia błędów 
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Liczba warstw ukrytych 


W strukturze sieci neuronowej może występować różna liczba warstw ukrytych. Decyzję 
o tym, ile warstw ukrytych zastosować, podejmuje twórca sieci i jest to na ogół decyzja 
arbitralna. Tym bardziej trzeba sobie zdawać sprawę z konsekwencji tej decyzji. Na rysunku 
przedstawiono w sposób umowny kształty obszarów decyzyjnych, jakie mogą tworzyć sieci 
o różnej liczbie warstw ukrytych. Widać, że sieci bez warstwy ukrytej mogą dzielić przestrzeń 
sygnałów wejściowych na dwie części, rozgraniczone linią prostą (w przypadku wielowy- 
miarowym, to znaczy gdy sieć ma wiele wejść - hiperpłaszczyzną). Sieć mająca jedną war- 
stwę ukrytą może wydzielić w przestrzeni sygnałów wejściowych dowolny jednospójny ob- 
szar o wypukłym obrysie, nazywany simpleksem. Dopiero sieć mająca dwie warstwy ukryte 
pozwala budować obszary decyzyjne otoczone niewypukłą powierzchnią graniczną, a także 
niejednospójne. Zastosowanie jeszcze większej liczby warstw ukrytych już bardziej obsza- 
rów decyzyjnych wzbogacić nie może, więc jest niecelowe. 


X2 
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Mapa topologiczna 


Wsieci Kohonena ta warstwa, na której prezentowany jest wynik działania sieci, nazywana 
jest warstwą topologiczną. Neurony należące do tej warstwy specjalizują się w identyfiko- 
waniu poszczególnych obiektów, jakie w trakcie procesu samouczenia były sieci prezento- 
wane na jej wejściu. Każdy neuron warstwy topologicznej ma więc przypisany do siebie 
obiekt, którego pojawienie się na wejściu sieci powoduje, że ten właśnie neuron zostaje 
zwycięzcą (patrz hasło Konkurencyjna sieć neuronowa). Rozmieszczenie tych obiektów 
formuje właśnie mapę topologiczną, pokazaną symbolicznie na rysunku. Znajomość mapy 
topologicznej ułatwia użytkownikowi interpretację i wykorzystanie wyników obliczeń dostar- 
czanych przez sieć Kohonena. 
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Minimum globalne 


Efekt uczenia sieci neuronowej tylko wtedy jest dobry, jeśli w jego wyniku wszystkie wagi 
otrzymają wartości gwarantujące uzyskanie najmniejszej wartości błędu całej sieci. Na wy- 
kresie funkcji błędu odpowiada to znalezieniu minimum globalnego. Na rysunku funk- 
cję błędu odwrócono, bo łatwiej jest narysować maksimum niż minimum, ale oczywiście 
w uczeniu sieci neuronowych zmierzamy do znalezienia minimum. 
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Minimum lokalne 


Proces uczenia sieci neuronowej jest w istocie procesem minimalizacji funkcji błędu. Przy 
każdej minimalizacji istnieje niebezpieczeństwo, że w wyniku otrzymane zostanie minimum 
lokalne, a nie minimum globalne. Na rysunku pokazano, czym to grozi: otóż sieć, która 
wpadła w „pułapkę” minimum lokalnego, źle aproksymuje dane wyjściowe (zaznaczone 
na rysunku czarnymi prostokątami). 
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Patrz hasło: Perceptron wielowarstwowy. 
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Momentum 


Składnik algorytmu uczenia powodujący, że podczas procesu uczenia zmiany wartości wag 
nie następują natychmiast po zmianie gradientu błędu, ale z pewną bezwładnością. Kieru- 
nek zmian wag jest więc dłużej zachowywany (uczenie jest bardziej konsekwentne), a pro- 
ces uczenia jest mniej wrażliwy na pułapki minimów lokalnych. 


Uczenie bez momentum 


minimum lokalne 


minimum globalne 


Uczenie z momentum 
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Nauczyciel 


Podmiot realizujący algorytm uczenia. Pojęcie 'nauczyciela' w przypadku uczenia sieci 
neuronowej jest pewną metaforą. W istocie nie ma żadnego człowieka, który mógłby pełnić 
rolę nauczyciela w stosunku do sieci neuronowej, ponieważ dla wytworzenia w sieci wyma- 
ganej wiedzy potrzeba setek, a czasem tysięcy pokazów przykładów uczących (na rysunku 
są to różne stany pracy modelowanej przez sieć maszyny) i korekt wag (na rysunku obrazują 
to żółte strzałki). Dlatego „nauczycielem” jest zawsze komputer mający możność wykonywa- 
nia wszystkich czynności związanych z uczeniem sieci w sposób automatyczny i z nieograni- 
czoną cierpliwością. Ale przy opisywaniu tego, jak sieć się uczy i jak działa - wygodnie jest 
powoływać się na metaforę nauczyciela, więc jest ona powszechnie stosowana. 


Oznaczenia na rysunku: 


A- sygnały wejściowe kierowane do obiektu, którego model ma wytworzyć w toku uczenia sieć neu- 
ronowa. Sygnały te są również przekazywane do modelującej obiekt sieci neuronowej oraz do 
komputera, który pełni rolę „nauczyciela'. 


Leksykon sieci neuronowych 


B- sygnały wyjściowe produkowane przez modelowany obiekt. Są one rejestrowane w komputerze pel, 
niącym rolę nauczyciela jako wzorzec poprawnej odpowiedzi, jaką powinna wyprodukować sieć. 

C- sygnały produkowane przez sieć, także rejestrowane w komputerze pełniącym rolę nauczyciela. 

D- oddziaływanie korekcyjne zmieniające parametry sieci neuronowej, ustalane w komputerze 
pełniącym rolę nauczyciela na podstawie algorytmu uczenia i porównania sygnałów B i C, które 
powinny stawać się coraz bardziej podobne do siebie. Przy realizacji algorytmu uczenia uwzględ- 
niane są także sygnały wejściowe A. 
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Neuron 


Podstawowy element budujący strukturę sieci neuronowej. Jest to element przetwarza- 
jący informacje, w pewnym stopniu wzorowany na funkcjonowaniu biologicznej komórki 
nerwowej, ale bardzo uproszczony. 


Z powodu tych uproszczeń w zasadzie nie powinno się używać dla tych elementów nazwy 
"neuron, bo ich właściwości daleko odbiegają od prawdziwych komórek nerwowych i ich 
dokładnych modeli (na przykład dostępnych w programie GENESIS). Ale nazwa neuron przy- 
jęła się i jest powszechnie używana. 


W strukturze neuronu odnaleźć można wiele wejść oraz jedno wyjście. Ważnym składni- 
kiem neuronu jest komplet wag, których wartości decydujące o zachowaniu neuronu zazwy- 
czaj ustalane są w trakcie procesu uczenia. 


AN 
agregacja danych obliczenie wartości 
wejściowych funkcji aktywacji 


W neuronie wykonywane są zwykle dwie czynności: agregacja danych wejściowych 
(z uwzględnieniem wag) oraz generacja sygnału wyjściowego (danej wyjściowej). Ze 
względu na sposób agregacji oraz formę funkcji aktywacji wyróżnia się różne typy neuro- 
nów. Najczęściej stosowane są neurony liniowe, neurony sigmoidalne i neurony radial- 
ne. Odmianą neuronów sigmoidalnych są neurony tangensoidalne. 
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Neuron Kohonena 


W sieciach Kohonena używane są neurony bardzo podobne pod względem struktury 
i funkcji do neuronów radialnych - ale różniące się jednym szczegółem, który może mieć 
znaczenie. Neurony te dokonują agregacji sygnałów wejściowych zgodnie ze schematem 
agregacji radialnej, ale jako funkcja aktywacji używana jest odwrotność sygnału sumarycz- 
nego pobudzenia. Neurony Kohonena reagują więc bardzo dużym sygnałem wyjściowym 
w sytuacji, gdy występuje mała odległość wektora danych wejściowych i wektora wag. 
Przy rosnącej odległości tych dwóch wektorów sygnał wyjściowy neuronu szybko maleje 
i utrzymuje niewielką wartość dla wszystkich wektorów wejściowych z wyjątkiem tych wła- 
śnie, które są bardzo bliskie wektora wag. Przy praktycznej realizacji neuronów Kohonena 
trzeba wprowadzić do funkcji aktywacji dodatkowe zabezpieczenie na wypadek, gdyby 
wektor wejściowy pokrył się z wektorem wag. W związku z tym w mianowniku wyrażenia 
definiującego funkcję aktywacji musi być dodana mała stała wartość (na przykład 10*), 
która normalnie nie ma znaczenia, bo jest znacznie mniejsza od znajdującej się także w tym 
mianowniku odległości wektora wejść i wektora wag (wyznaczonej przez agregację radial- 
ną). Stała ta zabezpiecza jednak przed fatalnymi skutkami dzielenia przez zero, gdy wektory 
wejść i wag przypadkowo się pokryją. Schemat neuronu Kohonena pokazano na rysunku. 
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Leksykon sieci neuronowych 


Neuron licznikowy 


Jest to neuron wykorzystywany w drugiej warstwie ukrytej sieci uogólnionej regresji. 
Neuron licznikowy oblicza iloczyn skalarny własnego wektora wag i wektora sygnałów po- 
chodzących z warstwy radialnej. Wagi tego neuronu są tak ustalane, że każdy sygnał warstwy 
radialnej zostaje przemnożony przez sumę wektorów wejściowych (przypadków) rozpozna- 
wanych przez dany neuron radialny. 
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Leksykon sieci neuronowych 


Neuron liniowy 


Jest to najprostszy, ale często bardzo przydatny model neuronu. Zakłada on liniową agrega- 
cję danych wejściowych i tożsamościową (liniową) funkcję aktywacji. 


z Tożsamościowa 
Agregacja liniowa ` A = Kä WE funkcja aktywacji 


Sieci zbudowane z neuronów liniowych bardzo dobrze się uczą, ale ich możliwości są ograni- 
czone i nie każde zadanie da się rozwiązać przy ich pomocy. 
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Leksykon sieci neuronowych 


Neuron mianownikowy 


Jest to neuron wykorzystywany w drugiej warstwie ukrytej sieci uogólnionej regresji. 
Neuron mianownikowy oblicza iloczyn własnego wektora wag i wektora sygnałów wejścio- 
wych, przy czym wagi tego neuronu są ustalane w procesie uczenia w taki sposób, że są 
proporcjonalne do ilości przypadków rozpoznawanych przez dany wektor radialny. 
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Leksykon sieci neuronowych 


Neuron oscylacyjny (impulsujący) 


Neurony impulsujące są bardziej złożoną odmianą neuronów „klasycznych”. Zwykle ich 
działanie opisuje układ równań różniczkowych zwyczajnych, które stanowią model matema- 
tyczny oscylatora relaksacyjnego. Oznacza to, że wyjście takiego neuronu generuje sygnał 
okresowy, który przy odpowiednim sumarycznym pobudzeniu jest zbliżony do oscylacji 
występujących w tkance nerwowej ludzkiego mózgu. Dlatego różne rodzaje neuronów im- 
pulsujących posłużyły do budowania sieci modelujących, naturalnie w sposób przybliżony, 
zachowanie ludzkiej kory mózgowej. Sieci takie są wykorzystywane np. do analizy sceny wi- 
zyjnej, a w szczególności do segmentacji obrazów. 
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Pobodzenie neuronu oscylacyjnego, poza sygnałem wejściowym, stanowi również suma ważo- 
nych wyjść sąsiednich neuronów. Dzięki tym lokalnym sprzężeniom neurony mają możliwość 
wzajemnej synchronizacji, co jest ich ważną cechą. W przypadku sieci zbudowanej z takich neu- 
ronów, grupy neuronów jednocześnie pobudzonych (zsynchronizowanych, czyli oscylujących 
w tym samym czasie) mogą kodować np. jednorodne obszary analizowanego obrazu. 
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Leksykon sieci neuronowych 


Neuron radialny 


Neurony radialne stosowane są w sieciach radialnych RBF oraz w sieciach uogólnionej 
regresji określanych też jako GRNN. Struktura neuronu radialnego zakłada użycie radialnej 
agregacji danych wejściowych oraz funkcji Gaussa jako funkcji aktywacji. 
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Neuron sigmoidalny 


Jest to najbardziej popularny neuron nieliniowy, nadający się do budowy sieci MLP. W neu- 
ronie sigmoidalnym zastosowana jest liniowa agregacja danych wejściowych (często 
z uwzględnieniem składnika BIAS) oraz sigmoidalna funkcja aktywacji. Na marginesie 
można dodać, że schemat działania neuronu sigmoidalnego jest najbardziej zbliżony do 
działania prawdziwej biologicznej komórki nerwowej. 


Warto jeszcze raz podkreślić, że zdecydowana większość dobrze funkcjonujących sieci neuro- 
nowych, wykorzystywanych w praktyce w różnych dziedzinach. wykorzystuje w swojej struk- 
turze, a zwłaszcza w warstwach ukrytych, składniki w postaci neuronów sigmoidalnych. 
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Leksykon sieci neuronowych 


Neuron tangensoidalny 


Neuron sigmoidalny, najbardziej popularny i najczęściej stosowany, ma ograniczenie po- 
legające na tym, że jego sygnał wyjściowy może przyjmować wyłącznie wartości dodat- 
nie. Taką funkcję aktywacji nazywa się często unipolarną. Biologiczne komórki nerwowe, 
na których wzorowane są wszystkie neurony wykorzystywane do budowy sieci neurono- 
wych, mogą operować wyłącznie dodatnimi sygnałami, więc wybór sigmoidalnej funkcji 
aktywacji jest wyborem zmierzającym do zapewnienia biologicznej wierności sieci. Jednak 
w sztucznej sieci neuronowej możliwe jest używanie zarówno sygnałów unipolarnych (wy- 
łączenie dodatnich) jak i bipolarnych (zarówno dodatnich, jak i ujemnych). Z tego powodu 
w sieciach neuronowych zaczęto stosować neurony posiadające funkcję aktywacji opisaną 
przez formułę tangensa hiperbolicznego. Jak pokazano na rysunku, funkcja ta ma taki sam 
kształt jak sigmoida, jednak jej wartości rozciągają się od -1 do +1, podczas gdy wartości 
sigmoidy są rozpięte między 0 a +1. 


K 
0.6 
08 zał 
a eg ef 
Sigmoida Funkcja tangens hiperboliczny 
: l : exp(55) -exp(-55 
0S—— tel pu = A-A) 
l+exp(-2s) exp(5s) +exp(—85) 


Niestety nie spełniło się oczekiwanie, że bipolarna funkcja tangens hiperboliczny użyta jako 
funkcja aktywacji w miejsce sigmoidy przyniesie znaczące polepszenie działania sieci neu- 
ronowych. Dlatego neurony tangensoidalne są rzadziej używane niż sigmoidalne. 


Leksykon sieci neuronowych 


Obszary decyzyjne 


Przy dyskutowaniu właściwości sieci neuronowych użyteczne bywa przedstawienie w ukła- 
dzie współrzędnych wyznaczanych przez dane wejściowe obszarów, w których sygnał wyj- 
ściowy sieci przyjmuje przeciwstawne wartości - na przykład +1 i -1. Obszary te, określane 
jako obszary decyzyjne, w sposób dokładny opisują zachowanie jedynie takiej sieci, która 
ma dwa wejścia i jedno wyjście. Jednak szkice obszarów decyzyjnych bywają przydatne 
także przy jakościowej ocenie zachowania sieci neuronowych o znacznie bogatszej struktu- 
rze. Na rysunku pokazano przykładowe obszary decyzyjne prostej sieci o dwóch wejściach 
i jednym wyjściu. Do obszarów, które powodują pojawienie się sygnału + 1 na wyjściu sieci, 
przypisano kolor czerwony, a do obszarów, które powodują pojawienie się sygnału -1 na 
wyjściu sieci, przypisano kolor niebieski. 
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Leksykon sieci neuronowych 


Odpowiedź 


Skrótowe określenie używane jako synonim danych wyjściowych. Można rozważać odpo- 
wiedź pojedynczego neuronu oraz odpowiedź całej sieci, utożsamianą z kompletem danych 
wyjściowych dla wszystkich neuronów wchodzących w skład warstwy wyjściowej sieci. 


Odpowiedź sieci wymaga często dodatkowej interpretacji - na przykład w sieciach klasy- 
fikacyjnych rozpoznanie ustala się na podstawie tego, który neuron warstwy wyjściowej 
prezentuje największą wartość sygnału. 
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Odpowiedź wzorcowa 


Druga składowa każdego przypadku uczącego należącego do zbioru uczącego. Jest to 
wzorzec poprawnych danych wyjściowych (poprawnej odpowiedzi sieci) dla przykłado- 
wych danych wejściowych stanowiących pierwszą składową tego przypadku uczącego. 


Odpowiedź wzorcowa jest wykorzystywana do wyznaczania błędu w czasie wykonywania al- 


gorytmu uczenia sieci. Ilustrację wykorzystania odpowiedzi wzorcowej przy uczeniu sieci 
przedstawiono na rysunku. 


bei Wzorcowe rozwiązanie zadania | Lë 
Nr E 
` Ocena błędu 


Postawienie Regulowanie LE Rozwiązanie 
zadania parametrów |. parametrów zadania przez 
Gi À Eë uczoną sieć 
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Leksykon sieci neuronowych 


Perceptron 


Nazwa kojarzona często z jednokierunkowymi sieciami neuronowymi uczonymi meto- 
dą uczenia z nauczycielem, które są przeznaczone do rozpoznawania i klasyfikacji różnych 
obiektów (najczęściej obrazów). Nazwa ta została po raz pierwszy użyta dla określenia sprzę- 
towej elektromechanicznej sieci neuronowej, którą zbudował i przebadał w 1960 roku 
Frank Rosenblatt na Uniwersytecie Cornella. 


Wygląd tej sieci przedstawia fotografia zaczerpnięta w dniu 15 lutego 2014 roku ze strony 
http://www.rutherfordjournal.org/images/TAHC_perceptron.jpg. Na pierwszym planie widać 
kable realizujące połączenia między neuronami (widocznymi w głębi fotografii w postaci mo- 
dułów o budowie elektromechanicznej - zmianę wag podczas uczenia uzyskiwano poprzez 
silniki elektryczne, które obracały potencjometry). Z obrazu połączeń widać, że w Perceptronie 
neurony miały przypadkowe połączenia, a jednak ta sieć po procesie uczenia realizowała 
poprawnie stawiane jej zadania (rozpoznawanie znaków pisma, figur geometrycznych itp.). 
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Leksykon sieci neuronowych 


Perceptron wielowarstwowy 


Jest to bardzo popularny typ sieci jednokierunkowej, kojarzony również ze skrótem MLP 
(od Multilayer Perceptron). Sieć typu MLP ma zwykle strukturę obejmującą warstwy: wej- 
ściową, jedną lub dwie warstwy ukryte złożone z neuronów sigmoidalnych oraz war- 
stwę wyjściową złożoną z neuronów sigmoidalnych lub z neuronów liniowych. Uczenie 
perceptronu wielowarstwowego realizowane jest najczęściej przy użyciu metody wstecznej 
propagacji błędów. Na rysunku wewnątrz kwadratów reprezentujących neurony narysowa- 
no wykresy przywołujące odpowiednie funkcje aktywacji, a kółkami oznaczono podlegają- 
ce procesowi uczenia wagi. 
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PNN 


Patrz hasło: Probabilistyczna sieć neuronowa. 


Leksykon sieci neuronowych 


Leksykon sieci neuronowych 


Podział przypadków uczących na podgrupy 


Aby przeprowadzić uczenie sieci neuronowej z nauczycielem należy podzielić dane przy- 
najmniej na dwie części: zbiór uczący i walidacyjny. Bardzo często wydziela się ze zbioru 
również trzeci podzbiór przypadków, zbiór testowy, służący do ostatecznej oceny jakości 
sieci (zdolności generalizacyjnych). 


Główny problemem związany z wydzieleniem podzbiorów polega na konieczności posiada- 
nia w każdym zbiorze przypadków uczących reprezentatywnych dla całego zbioru. Jeżeli 
ze zbioru uczącego zostaną wydzielone przypadki unikatowe, model nie będzie w stanie 
poprawnie przewidzieć ich własności. Z drugiej strony, jeżeli zostaną wybrane przypadki 
standardowe, posiadające bardzo bliskie lub niemal identyczne odpowiedniki w zbiorze 
uczącym, cała procedura oceny jakości sieci będzie nieskuteczna, gdyż nawet model prze- 
uczony uzyska bardzo dobre predykcje w czasie walidacji i testowania. 


Można wyróżnić 2 sposoby podziału przypadków na podzbiory: 


Losowy (np. w stosunku 2:1:1) - poprawny w przypadku bardzo licznego zbiór 
przypadków 
Klasterowy - bazujący na podobieństwach w samej strukturze danych. 


Należy dobrać empirycznie liczbę klastrów do zbioru danych, umożliwiając proporcjonalny 
wybór reprezentantów z poszczególnych klastrów w każdym z podzbiorów. W przypadku, 
gdy niezależnie od liczby klastrów zawsze obserwujemy występowanie pojedynczych unika- 
towych przypadków (tj. klastrów zawierających jeden przypadek), należy je włączyć do zbioru 
uczącego. Wyboru reprezentantów można dokonywać losowo albo kierując się odległością 
od centrum klastra 
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Leksykon sieci neuronowych 


PODZIAŁ LOSOWY 


PODZIAŁ KLASTEROWO-LOSOWY 
DANE POGRUPOWANE 


WALIDACYJNE 


TESTOWE 
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Połączenia 


Sieć neuronowa powstaje w ten sposób, że pomiędzy wyjściami jednych neuronów a wej- 
ściami innych neuronów tworzone są połączenia służące do jednokierunkowego przesy- 
łania sygnałów (danych). Są możliwe (patrz rysunek): (m) - połączenia międzywarstwowe, 
(w) - połączenia wewnątrzwarstwowe, (n) - połączenia nadwarstwowe, (s) - samosprzężenia, 
(r) - połączenia rekurencyjne. W większości praktycznie używanych sieci występują tylko po- 
łączenia międzywarstwowe, przy czym stosowana jest zasada każdy z każdym. 


Zazwyczaj z każdym połączeniem związana jest waga, której wartość uczestniczy w procesie 
agregacji danych w neuronie. Wartość wagi może ulegać zmianie w trakcie procesu uczenia. 
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Leksykon sieci neuronowych 


Probabilistyczna sieć neuronowa 


Są to sieci neuronowe, w których wyjścia traktowane są jako prawdopodobieństwa poszcze- 
gólnych możliwych rozwiązań. Sieci tego typu określane są często skrótem PNN (Probabili- 
stic Neural Networks). Są to sieci radialne zwykle o liczbie neuronów w warstwie ukrytej 
równej liczbie przypadków uczących. Zasadniczą cechą sieci probabilistycznych jest takie 
normalizowanie wartości sygnałów wyjściowych, że ich suma (na wszystkich wyjściach 
sieci) ma wartość 1. Wówczas można przyjąć, że wartości na poszczególnych wyjściach sieci 
reprezentują prawdopodobieństwa kategorii (rozpoznań) przypisanych do tych wyjść. 


Neurony radialne, których 
liczba odpowiada liczbie 
przypadków uczących 


Dane 


wejściowe 


Suma prawdopodobieństw 
A+B+C+D musi wynosić 1 
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Proces uczenia 


Istota procesu uczenia polega na tym, że nauczyciel, realizując algorytm uczenia, modyfi- 
kuje wagi we wszystkich neuronach sieci neuronowej w taki sposób, żeby zmierzać do mi- 
nimum funkcji błędu. Algorytm uczenia określa tylko sposób polepszania zestawu wag. 
Działa on w ten sposób, że, mając przed wykonaniem kolejnego kroku procesu uczenia gor- 
szy zestaw wag, dokonuje takiej jego zmiany, żeby uzyskać lepszy (to znaczy gwarantujący 
mniejszy błąd) nowy zestaw wag. Ten proces wymaga inicjalizacji wag (najczęściej losowej 
- patrz hasło inicjalizacja). 


Przy realizacji procesu uczenia ważne jest, żeby udało się znaleźć minimum globalne, gwa- 
rantujące rzeczywiście najlepsze dopasowanie parametrów sieci do rozwiązywanego zada- 
nia, z równoczesnym unikaniem pułapek, jakimi są liczne na ogół minima lokalne. 


Kierunek 
najszybszego 
spadku błędu 

ustalony przez 
algorytm uczenia 


Przemieszczenie po 
$ powierzchni błędu 


O dynamice procesu uczenia decyduje współczynnik uczenia oraz ewentualnie bezwład- 


ność uczenia, wiązana zwykle z angielskim terminem momentum. 
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Leksykon sieci neuronowych 


Programy modelujące sieci neuronowe 


Koncepcja sieci neuronowej jako narzędzia przetwarzającego informacje może być reali- 
zowana na dwa sposoby. Możliwa jest budowa specjalistycznych urządzeń, w których sieć 
neuronowa jest specjalizowanym układem elektronicznym, ale najczęściej sieć neuronowa 
jest po prostu programem komputerowym umożliwiającym definiowanie struktury sieci, 
przeprowadzenie procesu uczenia sieci oraz jej eksploatację jako narzędzia informatyczne- 
go do rozwiązywania określonych problemów. 


Mam program 
modelujący, 
więc działam jak 
sieć neuronowa 


Do bardziej znanych programów modelujących sieci neuronowe należą Neural Network Tool- 
box do MATLABa oraz Statistica Neural Networks w programie Statistica. Darmowe programy 
do modelowania sieci neuronowych (wraz z kodami źródłowymi w języku CH można pobrać 
ze strony http://home.agh.edu.pl/-tad//. 
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Przebieg genetycznej optymalizacji sieci 


Wybór najwłaściwszej struktury sieci neuronowej może się odbywać za pomocą algorytmu 
genetycznego. Uzyskana tą drogą genetyczna sieć neuronowa miewa często lepsze wła- 
ściwości niż sieć wymyślona przez użytkownika. Trzeba sobie jednak zdawać sprawę z tego, 
że przebieg genetycznej optymalizacji sieci może trwać długo i bywa bardzo burzliwy, gdyż 
w trakcie poszukiwania odpowiednio dobrej sieci, za sprawą czynników losowych, następują 
niekiedy gwałtowne polepszenia działania sieci, po których następują równie gwałtowne 
pogorszenia. Przedstawia to rysunek, na którym po lewej stronie pokazano schemat często 
stosowanego algorytmu genetycznego, a po prawej zmienność jakości sieci (wyrażanej przez 
popełniany przez nią sumaryczny błąd) w zależności od numeru populacji. 
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Leksykon sieci neuronowych 


Przeuczenie 


Zbyt długie uczenie sieci neuronowej powoduje, że sieć nadmiernie uzależnia swoje dzia- 
łanie od cech użytych do uczenia przypadków uczących - w tym także od cech drugorzęd- 
nych, nie dających podstaw do generalizacji. 


Wartość na wyjściu sieci 


Wartość na wejściu sieci 


Rysunek pokazuje przykład działania sieci przeuczonej. Działanie sieci (reprezentowane 
przez linię ciągłą na wykresie) zostało nadmiernie dopasowane do przypadków uczących 
(kółka na wykresie). Taka sieć będzie się cechowała bardzo złą generalizacją. 


Leksykon sieci neuronowych 


Przygotowanie ilościowych danych wejściowych 
dla sieci neuronowej 


Sieć neuronowa jestsystemem o dość dużej zdolności do dostosowywania swojego działania 
do różnych zadań i do różnych wymagań wynikających z tych zadań. Jednak we wszystkich 
tych zadaniach tylko dobre przygotowanie danych podawanych do warstwy wejściowej 
sieci gwarantuje sensowne użycie tego narzędzia i użyteczny wynik końcowy. Przykładem 
zagadnienia, które trzeba rozwiązać, jest dopasowanie przebiegu zmienności danych wej- 
ściowych do przedziału zmienności sygnałów mogących się pojawiać na wyjściach neuro- 
nów na skutek ich nieliniowej charakterystyki, co ilustruje podany niżej rysunek. 


( pe TY 


Jak widać z rysunku, dane wejściowe trzeba przesunąć (tzw. offset) i przeskalować, żeby dobrze 
odpowiadały wartościom występującym w sieci neuronowej, które w przypadku typowo uży- 
wanej sigmoidalnej funkcji aktywacji przyjmują wartości wyłącznie z przedziału od 0 do 1. 


Znacznie trudniejsze jest przygotowanie jakościowych danych wejściowych dla sieci 
neuronowej. 
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Leksykon sieci neuronowych 


Przygotowanie jakościowych danych wejściowych 
dla sieci neuronowej 


Dane wejściowe używane w sieciach neuronowych mogą mieć niekiedy formę danych 
jakościowych. Takie dane zamiast wartości liczbowych mogą przyjmować wartości w posta- 
ci nazw. Konkretna nazwa wskazuje jedną z możliwych wartości odpowiedniej danej, więc 
wnosi wartościową informację. Nie może ona jednak być bezpośrednio wykorzystywana 
w obliczeniach, bo nie jest liczbą. A powinna być uwzględniona! 


Na przykład w zadaniu prognozowania przez sieć neuronową rynkowych cen mieszkań, więk- 
szość danych wejściowych ma charakter ilościowy (powierzchnia mieszkania, wiek domu mp L na- 
tomiast istotne informacje o tym, jak bardzo komfortowe jest mieszkanie albo w jakiej dzielnicy 
miasta jest położone - nie dadzą się wyrazić za pomocą liczb. Takie dane wejściowe przygotowuje 
się przed wprowadzeniem do sieci neuronowej, kodując je metodą określaną jako „jeden-z-N". 
Kodowanie to polega na tym, że jeśli rozważana dana jakościowa może przyjmować jedną z N roz- 
różnialnych wartości, to dla jej reprezentacji na wejściu sieci neuronowej używa się N neuronów. 
Każdemu z tych neuronów przypisuje się jedną z możliwych wartości, jakie ta dana może przyjąć. 
Na przykład (patrz rysunek) jeśli dana dotyczy pochodzenia towaru, a miejscem pochodzenia może 
być Azja, Ameryka lub Europa, to odpowiednio pierwszy neuron sygnalizuje Azję, drugi Amerykę, 
a trzeci Europę. Gdy chcemy wprowadzić do sieci dane dotyczące na przykład pochodzenia towaru 
zAmeryki, to do pierwszego neuronu przesyłamy wartość 0 (bo nie jestto towarzAzji) do drugiego 
1 (tak, to jest towar z Ameryki) i do trzeciego O (nie jest to wyrób europejski). Przy N możliwych 
kategoriach zawsze tylko na jedno wejście podajemy 1, a na wszystkie pozostałe 0. 


Pochodzenie =/Azja, Ameryka, Europa} 


Azja: 41, 0, 07 p 
Ameryka: 40, 1, 0} 
Europa: 40, 0, 1} 


jedna zmienna — 
trzy neurony! 


Leksykon sieci neuronowych 


Przykładowe dane wejściowe 


Pierwsza składowa każdego przypadku uczącego należącego do zbioru uczącego. Jest to 
komplet danych wejściowych, dla którego znany jest komplet poprawnych danych wyj- 
ściowych sieci (tak zwana odpowiedź wzorcowa). 


[Doto Set Eaton uronio PE) 
sl EC $ est HRC 


Na rysunku przykładowe dane wejściowe wskazano zaznaczając strzałką odpowiedni zakres 
kolumn w typowym arkuszu, w którym przygotowywane bywają dane tworzące zbiór uczący 
dla sieci. 
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Leksykon sieci neuronowych 


Przypadek uczący 


Jest to wzorzec poprawnie rozwiązanego zadania, którego powinna nauczyć się sieć neu- 
ronowa. Typowy przypadek uczący składa się z przykładowych danych wejściowych oraz 
z odpowiedzi wzorcowej, pokazującej komplet poprawnych danych wyjściowych dla da- 
nych wejściowych stanowiących pierwszą składową tego przypadku uczącego. 


przykładowe odpowiedź 
dane wejściowe wzorcowa 


Na rysunku pokazano przypadek uczący dla hipotetycznej sieci neuronowej, która po poka- 
zaniu zdjęcia rozpoznawanej osoby - powinna podać jej imię. 


Leksykon sieci neuronowych 


Quickpropagation 


Odmiana algorytmu wstecznej propagacji błędu, która dzięki dostosowywaniu w poszcze- 


gólnych krokach procesu uczenia wielkości współczynnika uczenia do lokalnych właści- 
wości funkcji błędu pozwala na znaczne przyspieszenie procesu uczenia. Na rysunku poka- 
zano przebieg uczenia sieci neuronowej przy pomocy podstawowego algorytmu wstecznej 
propagacji błędu oraz przy pomocy Quickpropagation. Widać, że w obu przypadkach sieć 
została prawidłowo nauczona. Osiągnięte zostało minimum funkcji błędu, której wartości 
przedstawiono na rysunku w postaci poziomic (jak na mapie geograficznej). Jednak widać, 


liczba iteracji wymaganych przy stosowanie algorytmu Quickpropagation była znacząco 
mniejsza. 


Wsteczna propagacja błędów — 91 iteracji Algorytm Quickpropagation — 63 iteracje 
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RBF 


Patrz hasło: Sieć radialna. 


Leksykon sieci neuronowych 


Leksykon sieci neuronowych 


Redukcja połączeń 


Projektując strukturę sieci z reguły przyjmuje się, że neurony sąsiednich warstw łączy się na 
zasadzie każdy z każdym. Jednak w procesie uczenia okazuje się, że wiele z tych połączeń 
jest niepotrzebnych. Przy prawidłowo prowadzonym uczeniu takie niepotrzebne połączenia 
otrzymują wartości wag wynoszące zero. W praktyce oznacza to, że połączenia te nie przesy- 
łają sygnałów (dowolna wartość sygnału przemnożona przez zerową wagę daje zero). Jeśli 
sieć ma być po nauczeniu intensywnie eksploatowana - celowe jest przejrzenie jej struktury 
i usunięcie wszystkich takich „wyzerowanych” połączeń. Przy okazji redukcji niepotrzebnych 
połączeń usunąć można także niepotrzebne neurony - takie, do których nie docierają żadne 
niezerowe sygnały wejściowe oraz takie, których sygnały wyjściowe nie są przesyłane dalej 
w sieci (wyzerowane są wszystkie wagi połączeń wiodących z wyjść tych neuronów). O tym, jak 
bardzo taki zabieg może być efektywny, świadczy rysunek pokazujący po lewej stronie począt- 
kową strukturę sieci, a po prawej - to, co z niej pozostało po redukcji połączeń. 
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Leksykon sieci neuronowych 


Redukcja warstwy wejściowej 


Warstwa wejściowa sieci neuronowej nie powinna zawierać zbyt wielu neuronów. Pro- 
blem ten jest omówiony w haśle warstwa wejściowa, natomiast tu jest przykład redukcji 
warstwy wejściowej, to znaczy zmniejszania liczby budujących ją elementów. Rozwiązywa- 
nym zadaniem jest klasyczny problem klasyfikacji trzech gatunków irysów" (Setosa - Se, 
Versicolour - Ve i Virginica - Vi) na podstawie wymiarów płatków składających się na ich 
kwiat. Ilustracja do tego problemu pokazana jest także w haśle warstwa wejściowa. 


zmienne warstwa 
lingwistyczne ukryta 


M 


Redukcja | 
zbędnych | 
połączeń 


Versicolor 


Virginica 


> 


zmienne warsa wyjście 


lingwistyczne ukryra 


Kategorie lingwistyczne Xi 
s, m, | oznaczają 
odpowiednio wartości 
małe, średnie i duże. 


Setosa 
EE 50 przypsdkow 


wszystkie poprawnie 


Na rysunku widać, że po procesie uczenia i po związanej z nim redukcji połączeń z 12 da- 
nych wejściowych pozostało jedynie 6, związanych z sygnałami X, i X,. Prawidłowość tej re- 
dukcji danych jest wiarygodna, ponieważ wynik rozpoznawania w sieci po redukcji połączeń 
był zadowalający: 50 irysów gatunku Se rozpoznano poprawnie, 47 irysów gatunku Ve też roz- 
poznano poprawnie, a 3 omyłkowo zaliczono do gatunku Vi, zaś wszystkie irysy należące do 
gatunku Vi też rozpoznano bezbłędnie. 


1 Problem ten jest typowym benchmarkiem używanym w wielu testach. Dane do tego problemu wraz z opi- 
sem dostępne są na stronie http://archive.ics.uci.edu/ml/datasets/Iris 


Leksykon sieci neuronowych 


Rekurencyjna sieć neuronowa 


Struktura neuronalna, w której sygnał otrzymany na wyjściu sieci trafia powtórnie na jej 
wejście (taki obieg sygnału zwany jest sprzężeniem zwrotnym). Jednorazowe pobudzenie 
struktury ze sprzężeniem zwrotnym może generować całą sekwencję nowych zjawisk i sy- 
gnałów, ponieważ sygnały z wyjścia sieci trafiają ponownie na jej wejścia, generując nowe 
sygnały aż do ustabilizowania się sygnałów wyjściowych. Takiemu przebiegowi sygnałów 
wyjściowych wszystkich neuronów, powstającemu w sieci spontanicznie i nie poddającemu 
się żadnej kontroli, towarzyszą często oscylacje, gwałtowne narastanie sygnałów (wręcz do 
nieskończoności!) lub ich bezsensowne wygaszanie aż do całkowitego wyzerowania całej 
sieci. Szczególnie skomplikowane są procesy powstawania i rozwoju chaosu, z którymi w ta- 
kiej sieci też często miewamy do czynienia. 
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Leksykon sieci neuronowych 


Samoorganizująca się sieć neuronowa 


Samoorganizujące się sieci neuronowe określa się często jako sieci neuronowe Kohonena. 
Sieci tego typu realizują samoorganizujące się odwzorowanie - SOM (ang. Kohonens 
Self-Organizing Feature Map - KSFM) i są ściśle związane ze sposobem ich uczenia, tzn. ucze- 
niem nienadzorowanym, inaczej zwanym uczeniem bez nauczyciela lub samouczeniem. 
Oznacza to, że proces modyfikacji wag w tych sieciach odbywa się z użyciem zbioru uczące- 
go, który zawiera jedynie informacje o wartościach wejściowych nieskojarzonych z żadnymi 
żądanymi wartościami wyjściowymi. Pozwala to odpowiednio dobranemu algorytmowi 
samouczącemu na w miarę swobodną interpretację informacji zawartej w przypadkach 
uczących znajdujących się w zbiorze uczącym. Dzięki temu możliwe staje się na przykład 
określenie liczby klas wektorów występujących w danym problemie i przypisanie każdej kla- 
sie reprezentanta w postaci neuronu w sieci. Jest to wspólna cecha sieci uczonych algoryt- 
mami bez nauczyciela, wśród których samoorganizujące się sieci neuronowe wyróżniają się 
procedurą modyfikacji wag w sieci. 


W odróżnieniu od innych algorytmów, takich jak np. WTA (ang. Winner Takes All - zwycięzca 
bierze wszystko), w samoorganizującej się sieci neuronowej w trakcie prezentacji danego 
przypadku uczącego modyfikowane są wagi nie tylko neuronu reprezentującego klasę, 
do której przyporządkowuje się ten przypadek, ale również wagi neuronów znajdujących 
się w topologicznym sąsiedztwie tego neuronu. Pozwala to na odwzorowanie rozkładu klas 
w przestrzeni wektorów wejściowych na topologiczny rozkład neuronów reprezentujących 
te klasy, na zasadzie: podobne do siebie klasy reprezentowane są przez bliskie sobie neu- 
rony. Sąsiedztwo topologiczne może być realizowane w jednym lub częściej dwóch wymia- 
rach, co determinuje jedno lub dwuwymiarowość warstwy neuronów w samoorganizującej 
się sieci. 
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wejście 
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Leksykon sieci neuronowych 


Samouczenie 


Samouczenie, inaczej zwane uczeniem nienadzorowanym lub uczeniem bez nauczyciela, jest 
odmianą uczenia sieci neuronowych, w którym procesy modyfikacji wartości wag w tej sieci 
przeprowadzane są z użyciem zbioru uczącego, który nie zawiera informacji w postaci wartości 
żądanych na wyjściach sieci przy wartościach reprezentujących przypadki uczące podanych 
na wejściach sieci. Odpowiednio sformułowany proces samouczenia bazujący na tak okre- 
ślonym zbiorze uczącym pozwala na swobodną, w pewnym zakresie, interpretację informacji 
zawartej w przypadkach uczących. Samouczenie pozwala sieciom neuronowym na rozwią- 
zywanie problemów związanych na przykład z sytuacją, gdy brak jest przesłanek do wyrokowa- 
nia o liczbie i rozkładzie klas w analizowanym problemie klasyfikacyjnym. W tym przypadku 
mówi się o możliwości rozwiązywania przez sieć neuronową problemu grupowania danych. 
Najbardziej popularne algorytmy realizujące samouczenie to: algorytm określany jako WTA 
(ang. Winner Takes All - zwycięzca bierze wszystko) oraz algorytm KSFM (ang. Kohonen' Self- 
-Organizing Feature Map - somoorganizujące się odwzorowanie Kohonena). W przypadku 
zastosowania pierwszego z tych algorytmów, po przeprowadzeniu samouczenia, uzyskuje się 
informację o szacunkowej liczbie występujących w danym praktycznym problemie klas oraz 
o przybliżonych wartościach środków ciężkości tych klas, czyli określa się reprezentantów po- 
szczególnych klas w postaci wybranych neuronów W przypadku bardziej złożonego algorytmu 
Kohonena, oprócz powyższych danych, ustalane jesttopologiczne rozmieszczenie reprezentan- 
tów określonych klas w warstwie neuronów na zasadzie: neurony reprezentujące podobne do 
siebie klasy umieszczane są w swoim sąsiedztwie w strukturze sieci neuronowej. 


Leksykon sieci neuronowych 


wyjście 


Sieć neuronowa 
uczona algorytmem 
bez nauczyciela 


wejście 


przypadek uczący 
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Leksykon sieci neuronowych 


Sąsiedztwo 


W większości sieci neuronowych nie rozważa się tego, jak neurony są rozmieszczone, gdyż 
nie ma to żadnego znaczenia. Wyjątkiem są sieci Kohonena, znane też jako samoorgani- 
zujące się sieci neuronowe. W warstwie topologicznej tych sieci położenie neuronów ma 
znaczenie, gdyż neurony położone w pobliżu zwycięskiego neuronu (patrz hasło Konkuren- 
cyjna sieć neuronowa), czyli będące jego sąsiadami, są odmiennie traktowane w trakcie 
procesu uczenia oraz mają specjalne znaczenie podczas interpretacji wyników dostarczanych 
przez pracującą (nauczoną) sieć. 


O neuron zwycięski 


O neuron sąsiedni 
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Sieć klasyfikacyjna 


Odmiana sieci neuronowej, w której sygnały wyjściowe mają charakter jakościowy (poja- 
wiają się na wyjściu jako liczby, najczęściej z przedziału [0,1], ale są wykorzystywane w for- 
mie decyzji). Należy zwrócić uwagę, że każdej z przewidywanych klas odpowiada jeden neu- 
ron w warstwie wyjściowej. 
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Leksykon sieci neuronowych 


Sieć neuronowa 


System przeznaczony do przetwarzania informacji, którego budowa i zasada działania są 
w pewnym stopniu wzorowane na funkcjonowaniu fragmentów rzeczywistego (biologicz- 
nego) systemu nerwowego. Na przesłankach biologicznych oparte są schematy sztucznych 
neuronów wchodzących w skład sieci oraz (w pewnym stopniu) jej struktura. Jednak sche- 
maty połączeń neuronów w sieci neuronowej są wybierane arbitralnie, a nie stanowią mo- 
delu rzeczywistych struktur nerwowych. 


Wyróżniającą cechą sieci neuronowej jako narzędzia informatycznego jest możliwość kom- 
puterowego rozwiązywania przy jej pomocy praktycznych problemów bez ich uprzedniej 
matematycznej formalizacji. Dalszą zaletą jest brak konieczności odwoływania się przy sto- 
sowaniu sieci do jakichkolwiek teoretycznych założeń na temat rozwiązywanego problemu. 
Nawet założenie o przyczynowo-skutkowych zależnościach między wejściem a wyjściem 
nie musi być egzekwowane! Najbardziej znamienną cechą sieci neuronowej jest jej zdol- 
ność uczenia się na podstawie przykładów i możliwość automatycznego uogólniania zdoby- 
tej wiedzy (generalizacja). Rysunek przedstawia najbardziej typowy schemat praktycznego 
użycia sieci neuronowej. 


Leksykon sieci neuronowych 


Sieć neuronowo-rozmyta 


Jest to realizacja rozmytego systemu decyzyjnego w postaci sieci (na wzór sieci neurono- 
wej) elementów realizujących różnego rodzaju funkcje i operacje elementarne. Struktura 
sieciowa pozwala na implementację procesu optymalizacji w oparciu o kryterium błędu 
średniokwadratowego z wykorzystaniem metody największego spadku - analogicznej do 
wstecznej propagacji błędów stosowanej w przypadku jednokierunkowych sieci neuro- 
nowych. Rozwiązanie to pozwala połączyć zalety rozmytych systemów decyzyjnych (czytel- 
ność wiedzy) i sieci neuronowych (możliwość uczenia). 


Dzięki strukturze sieciowej możliwe jest przeprowadzenie optymalizacji parametrów zbio- 
rów rozmytych w odniesieniu do prawidłowego odwzorowania próbek wzorcowych zawar- 
tych w zbiorze uczącym. Tak jak w przypadku wstecznej propagacji błędów stosowanej 
w odniesieniu do sieci neuronowych, również w przypadku sieci neuronowo-rozmytej wy- 
znacza się błąd na wyjściu, a następnie propaguje go wstecz, prowadząc do wyznaczenia 
poprawek parametrów zbiorów rozmytych. Odmienne, w stosunku do wstecznej propaga- 
cji błędów stosowanej w sieciach neuronowych, są funkcje realizowane przez elementy, 
z których zbudowana jest sieć oraz pochodne tych funkcji. 


SIECI NEURONOWE 


*- APROKYSMACJA DOWOLNEJ 
FUNKCJI WIELOWYMIAROWE.: 


+ UCZENIE SIĘ NA 
PRZYKŁADACH 
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Leksykon sieci neuronowych 


Sieć radialna 


Rodzaj jednokierunkowej sieci neuronowej w której wykorzystywana jesttechnika radialnych 
funkcji bazowych (RBF - Radial Basis Functions) i stosowane są neurony radialne. Sieć radialna 
w typowym kształcie składa się (patrz rysunek) z warstwy wejściowej (jak zawsze nieangażowa- 
nej bezpośrednio w procesy przetwarzania informacji), warstwy ukrytej złożonej z neuronów 
radialnych (jest ich zwykle bardzo dużo) i warstwy wyjściowej, wypracowującej odpowiedź 
sieci. Neurony radialne służą do rozpoznawania powtarzalnych i charakterystycznych cech grup 
(skupisk) danych wejściowych. Konkretny neuron radialny ulega pobudzeniu, gdy sieć radialna 
konfrontowana jest z przypadkiem podobnym do tego, który nauczył się on wcześniej rozpozna- 
wać jako reprezentanta pewnej grupy. W warstwie wyjściowej sieci radialnej najczęściej wystę- 
puje (jak na rysunku) jeden neuron liniowy - ale bywają wyjątki od tej reguły. 


Leksykon sieci neuronowych 


Sieć regresyjna 


Odmiana sieci neuronowej, w której sygnały wyjściowe mają charakter ilościowy (dane 
pojawiające się na wyjściu są wykorzystywane w formie wartości liczbowych). Jest to jedna 
z częściej wykorzystywanych w praktyce form sieci neuronowej. 


regresja 
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Leksykon sieci neuronowych 


Sieć uogólnionej regresji 


Sieć tego typu łączy zalety sieci radialnej i sieci MLP. Jest zwykle określana skrótem GRNN 
(od ang. Generalized Regression Neural Network). Jej budowa wraz ze wskazaniem roli po- 
szczególnych warstw przedstawiona jest na rysunku poniżej. 


warstwa radialna 
każdy z neuronów reprezentuje skupienie 


warstwa l ien 
LE 4 występujące w danych wejściowych 
wejsciowa 
służy do > 
wprowadzania zx warstwa regresyjna 


danych do sieci wyznacza elementy niezbędne do 


“obliczenia wartości wyjściowej 


warstwa wyjściowa 
wyznacza odpowiedź sieci 


W warstwie radialnej, będącej tu odpowiednikiem pierwszej warstwy ukrytej, wykorzystywa- 
ne są neurony radialne, dokonujące grupowania danych wejściowych. Warstwa ta może się 
składać z bardzo dużej liczby neuronów, co odpowiada wykryciu w zbiorze danych wejściowych 
dużej liczby skupień danych (patrz - sieć radialna). Druga warstwa składa się tylko z dwóch 
neuronów sumujących (tzw. neuronu mianownikowego i neuronu licznikowego) i jest 
nazywana warstwą regresyjną. Neuron wyjściowy wykonuje tylko jedno działanie, w wyniku 
którego powstaje iloraz wyników obu neuronów sumujących. Można wykazać, że w sieci GRNN 
uzyskuje się najlepszą estymację wymaganej wartości wyjściowej w sieciach regresyjnych. 
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SOM - samoorganizujące się odwzorowanie 


Patrz hasło: Samoorganizująca się sieć neuronowa. 
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Leksykon sieci neuronowych 


Sprzętowe realizacje 


Większość zastosowań sieci neuronowych, które są opisywane w literaturze, a w szczegól- 
ności wszystkie te zastosowania, które opisywane są we wcześniejszych rozdziałach tej mo- 
nografii - dotyczą w istocie wykorzystania programów modelujących sieci neuronowe. 
Niemniej warto wspomnieć, że sieci neuronowe były i są niekiedy używane jako sprzętowe 
realizacje. Dawniej najczęściej były one wykonywane jako specjalizowane układy scalone 
ASIC (Application Specific Integrated Circuit), a obecnie głównie realizowane na bazie pro- 
gramowalnych układów FPGA (Field Programmable Gate Array). Na rysunku przedstawiono 
najbardziej znany przykład sprzętowej realizacji sieci neuronowej wykonanej przez firmę 
Intel. Obraz zaczerpnięty 15 lutego 2014 roku ze strony http://www.warthman.com/images/ 
Intelh2080170%20B.jpg 
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SSE - suma kwadratów błędów 


W trakcie procesu uczenia sieci trzeba obserwować postęp tego procesu, ponieważ istnieje 
ryzyko, że nie przyniesie on pożądanego rozwiązania. Najwygodniej jestto zrobić obserwując, 
jak zmienia się wartość błędu w kolejnych epokach procesu uczenia. Ponieważ sieć może 
mieć wiele wyjść (powiedzmy, że jest ich M), a epoka składa się z R przypadków uczących 
- trzeba brać pod uwagę błąd całościowy, sumowany po wszystkich przypadkach uczących 
i po wszystkich wyjściach sieci. Zwykle przed zsumowaniem wartości błędów podnoszone są 
do kwadratu, żeby uniknąć efektu kompensowania błędów ujemnych przez błędy dodatnie, 
a ponadto operacja podnoszenia do kwadratu powoduje silniejsze zaakcentowanie dużych 
błędów przy równoczesnym zmniejszeniu wpływu błędów małych. Powstający wskaźnik na- 
zywany jest SSE (Sum Square Errors) i jest wyrażany wzorem: 


gdzie d. oznacza wzorcową odpowiedź, jaka powinna się pojawić przy prezentacji przypad- 
ku uczącego o numerze p na wyjściu sieci o numerze k, a Va oznacza wartość, jaka się 
w rzeczywistości pojawiła na tym wyjściu 
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Mała wartość błędu, 
a jednak kiepskie _ n 
dopasowanie H (y-Y,) 


© 188086 


Ta krzywa dosyć dobrze = 


odwzorowuje sporą część danych 
- a wartość błędu jest duża 


SSE jest powszechnie stosowaną w technice sieci neuronowych miarą błędu popełnianego 
przez sieć i większość algorytmów uczenia sieci jest dostosowanych do jego minimalizacji. 
Jednak, jak pokazano na rysunku, nie zawsze mniejsza wartość tej miary (obrazują ją liczby 
obok odpowiednich wykresów) oznacza lepsze dopasowanie działania sieci do empirycz- 
nych danych, które powinna ona odwzorować. 
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Struktura sieci neuronowej 


Struktura sieci neuronowej to sposób ułożenia i połączenia neuronów. W typowej sieci 
struktura zakłada istnienie warstw, bo takie ułożenie neuronów ułatwia definiowanie struk- 
tury sieci (gdy użytkownik musi zdecydować, jakiej sieci chce użyć), a także porządkuje ste- 
rowanie pracą sieci zarówno przy jej realizacji w formie programu symulującego sieć w zwy- 
kłym komputerze, jak i w przypadku stosowania specjalizowanych rozwiązań sprzętowych 
(chipów neuronowych, neurokomputerów itp.). 


X] 
— 
y 
X2 
— 


Zwykle w strukturze sieci wyróżnić można warstwę wejściową, warstwę wyjściową oraz 
warstwy ukryte. Liczba warstw ukrytych waha się od zera (może być sieć bez warstw ukry- 
tych) do dwóch. Sieci o większej liczbie warstw ukrytych są inteligentniejsze (potrafią rozwią- 
zywać trudniejsze zadania), ale są trudniejsze do uczenia. 
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Sumaryczne pobudzenie 


W strukturze każdego neuronu musi być przewidziana czynność agregacji danych wej- 
ściowych, ponieważ jedną z zasadniczych cech neuronu jest to, że ma on wiele wejść i tylko 
jedno wyjście. Różne metody agregacji są omówione w oddzielnym haśle tego Leksykonu, 
natomiast tutaj podkreślony jest fakt, że wynik tej agregacji jest sygnałem skalarnym, który 
jest następnie użyty jako argument funkcji aktywacji. Właśnie ten skalarny sygnał nazywa- 
ny jest sumarycznym pobudzeniem. 
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Surowość nauczyciela 


Inspirująca i użyteczna analogia, pozwalająca lepiej zrozumieć rolę współczynnika uczenia 
w procesie uczenia sieci neuronowej. Jedną z interpretacji surowości nauczyciela (naucza- 
jącego dzieci) oraz jej związku z wartością współczynnika uczenia sieci neuronowej przed- 
stawia rysunek poniżej. 


Duży współczynnik uczenia działa jak Mały współczynnik uczenia działa jak 

Surowy nauczyciel zmuszający ucznia łagodny nauczyciel, akceptujący mały wpływ 
po każdym błędzie do radykalnej nawet kiepskich doraźnych ocen na działania 
zmiany postępowania (duże korekty wymuszające postępy w nauce 

wag) 


Jednym z wniosków (użytecznych!), jakie można wysnuć na podstawie analogii między 
współczynnikiem uczenia a surowością nauczyciela, jest propozycja zmiany wartości 
współczynnika uczenia w trakcie nauki. 
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Leksykon sieci neuronowych 


Sygnały 


Dane, którymi operujemy w sieciach neuronowych, często nazywamy sygnałami, chociaż 
w istocie są to wartości liczbowe uczestniczące w określonych obliczeniach. Dotyczy to zarów- 
no danych wejściowych, jaki danych wyjściowych. Nazewnictwo to bardzo się zakorzeniło 
w środowiskach często używających sieci neuronowych, jak również wśród badaczy tworzą- 
cych nowe sieci i doskonalących ich działanie. Wynika to z faktu, że neurobiolodzy badający 
rzeczywiste komórki nerwowe obserwują zachodzące w nich procesy, korzystając z rejestracji 
różnych sygnałów bioelektrycznych (patrz rysunek poniżej zaczerpnięty 15 lutego 2014 ze 
strony http://people.eku.edu/ritchisong/301images/Neuron_action_potential.jpg), więc 
terminologia używana w ich publikacjach właśnie do tych sygnałów nawiązuje. 


Oscilloscope 
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Z kolei twórcy sieci neuronowych wprawdzie obecnie zadowalają się programami modelującymi 
sieci neuronowe, ale mają także na względzie ich sprzętowe realizacje, w których znowu w użyciu 
są określone sygnały - tyle tylko, że czysto elektroniczne. Stąd częste używanie w literaturze doty- 
czącej sieci neuronowych (a także w tym Leksykonie) określenia 'sygnały' (wejściowe, wyjściowe 
i wewnętrzne) jako synonimu odpowiednich danych (wejściowych, wyjściowych i wewnętrznych). 
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Szybkie algorytmy uczenia 


Metoda wstecznej propagacji błędów jest stosunkowo prymitywna, co powoduje, że ucze- 
nie sieci jest stosunkowo powolne. Pewne przyspieszenie procesu uczenia można uzyskać, 
stosując metodę Quickpropagation, ale przyspieszenie to nie jest szczególnie istotne. Na- 
tomiast istnieją metody uczenia, których zastosowanie może bardzo znacząco przyspieszyć 
uczenie sieci - chociaż stosowalność tych metod uzależniona jest od tego, czy funkcja błę- 
du spełnia pewne dodatkowe warunki. Ponieważ zwykle nie da się sprawdzić, czy funkcja 
błędu te warunku spełnia, stosowanie tych przyspieszonych metod uczenia obarczone jest 
pewnym ryzykiem (przy niespełnionych warunkach proces uczenia może nie być zbieżny). 
Ale gdy metody te można zastosować - stopień przyspieszenia procesu uczenia jest bardzo 
duży. Przykładem takich metod jest algorytm gradientów sprzężonych, quasi-Newtona czy 
Leveberga-Marquardta (patrz rysunek, a także hasło Quickpropagation) 


Wsteczna propagacja Metoda gradientów Algorytm Levenberga- 
błędów — 91 iteracji sprzężonych — 22 iteracje Marquardta — 7 iteracji 
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Leksykon sieci neuronowych 


Transformacja PCA 


Transformacja ta służy do przekształcenia danych wejściowych mających postać wektora 
o wielu składowych do takiej postaci, w której tę samą (prawie) ilość użytecznej informacji 
daje się uzyskać z wykorzystaniem wektora o znacznie mniejszej liczbie składowych (czy- 
li w przestrzeni o mniejszym wymiarze). W klasycznej PCA uzyskuje się dodatkowo to, że 
składowe wektora po transformacji są zdekorelowane (ich wzajemne korelacje są zerowe), 
a składowe są uporządkowane według stopnia ważności - pierwsza składowa ma największą 
wartość (wnosi najwięcej informacji), następna nieco mniej itd. Ostatnie składowe wnoszą 
bardzo mało informacji, więc mogą zostać pominięte, co powoduje, że PCA zastosowana jako 
przetwarzanie wstępne sygnału przed jego wprowadzeniem do sieci neuronowej pozwala 
zmniejszyć rozmiar warstwy wejściowej sieci. 


pcal 


Rysunek przedstawia przykładowy zbiór danych wejściowych w oryginalnym układzie współ- 
rzędnych z wprowadzonym układem współrzędnych PCA. Widać, że współrzędna pca1 opisuje 
zmienność rozważanych danych na tyle dobrze, że wprowadzanie współrzędnej pca2 nie jest 
konieczne. W ten sposób problem dwuwymiarowy można zredukować do jednowymiarowego. 


Obok klasycznej PCA stosowana jest także nieliniowa PCA. Nieliniową PCA uzyskuje się z wy- 
korzystaniem sieci autoasocjacyjnej. 
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Uczenie 


Uczenie jest to proces oparty na prezentacji przypadków uczących (przykładów prawidło- 
wo rozwiązanych zadań) należących do zbioru uczącego. W trakcie tych pokazów następuje 
stopniowe dopasowywanie się sieci do tego, by nabyła ona umiejętność rozwiązywania tych 
zadań. Dopasowywanie to opiera się na porównywaniu odpowiedzi udzielanych przez sieć 
z odpowiedziami wzorcowymi. Wprowadzana korekta błędu powoduje, że sieć po każ- 
dej prezentacji zwiększa szansę udzielenia odpowiedzi bardziej zbliżonej do odpowiedzi 
wzorcowej, a ponadto zmierza się do tego, żeby sieć uogólniła wyuczoną umiejętność na 
inne, podobne zadania, nieprezentowane w trakcie uczenia (generalizacja). 


Na rysunku pokazano schemat uczenia dla hipotetycznej sieci neuronowej, która po pokaza- 
niu zdjęcia rozpoznawanej osoby - powinna podać jej imię. 


Formalnie uczenie można określić jako iteracyjny proces estymacji optymalnych wartości 
parametrów sieci (najczęściej wag) na podstawie zbioru uczącego. Metodę zmiany wag 
w trakcie procesu uczenia wyznacza używany algorytm uczenia. 
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Jak pokazano na rysunku - od przypisania do różnych wejść neuronu 
jego zachowanie. 
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Wagi 


Parametry neuronu decydujące o jego właściwościach i roli w procesie rozwiązywania przez 
sieć postawionego zadania. Zwykle wagi dopasowuje w całej sieci używany algorytm ucze- 
nia lub samouczenia. Komplet wartości wag ustalonych we wszystkich neuronach w trakcie 
uczenia lub samouczenia determinuje wiedzę, jaką posiada sieć neuronowa. 
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Walidacja krzyżowa 


Do oceny zdolności sieci do generalizacji można wykorzystać metodę określaną jako walida- 
cję krzyżową. Metoda ta polega na podziale zbioru danych wejściowych sieci na szereg pod- 
zbiorów, pośród których wybiera się jeden z nich jako zbiór walidacyjny, natomiast pozostałe 
podzbiory służą do uczenia sieci (tworzą zbiór uczący). Metoda ta jest stosowana szczególnie 
wtedy, kiedy liczba danych wejściowych jest ograniczona. Przeciwieństwem walidacji krzyżowej 
jest walidacja prosta, kiedy w sposób losowy tworzy się tylko dwa podzbiory: uczący i walida- 
cyjny. Metoda walidacji krzyżowej posiada kilka odmian. Najpopularniejszymi są: walidacja 
n-krotna, walidacja metodą leave-one-out oraz walidacja metodą bootstrap. 


Do zbioru uczącego 
Do zbioru uczącego 
Do zbioru uczącego 


Do zbioru uczącego 


Do zbioru uczącego 


PY. 
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Walidacja metodą bootstrap 


Zasada działania podobna do walidacji n-krotnej, przy czym podzbiory tworzy się przy wyko- 
rzystaniu losowania ze zwracaniem. Dlatego podzbiory wykorzystane do walidacji mogą zawie- 
rać powtarzające się elementy. Zaletą tej metody jest możliwość kształtowania dowolnych pro- 
porcji pomiędzy liczebnościami zbioru uczącego i testowego (w przypadku walidacji n-krotnej 
proporcja ta zależy od liczby n). Pewne ograniczenie tej metody wynika z faktu, że nie wszystkie 
elementy zbioru wejściowego muszą brać udział w walidacji krzyżowej (w wyniku losowania 
nie ma gwarancji, że na pewno znajdą się w którymś z podzbiorów walidacyjnych). 


(3-krotna walidacja) (metoda bootstrap) 


Na rysunku pokazano przykładowy podział zbioru przypadków uczących na trzy zbiory 
walidacyjne: rozłączne dla metody walidacji 3-krotnej oraz częściowo się pokrywające dla 
metody bootstrap. W tym drugim przypadku (założono tworzenie 3 podzbiorów walidacyj- 
nych), zawierają one wspólne elementy. Dla obydwu metod do podzbioru uczącego należą 
wszystkie pozostałe elementy zbioru danych wejściowych. 
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Walidacja metodą leave-one-out 


Jest to metoda walidacji stosowana w przypadku, gdy liczebność zbioru danych uczących 
sieci jest niewielka. Wtedy zbiór ten jest dzielony na jednoelementowe podzbiory. Każdy 
taki pojedynczy element służy do testowania sieci, jej uczenie następuje z wykorzystaniem 
wszystkich pozostałych elementów. Czynność ta jest powtarzana tyle razy, ile jest elementów 
w zbiorze danych wejściowych. W istocie walidacja metodą leave-one-out jest walidacją N- 
-krotną, gdzie N jest liczbą przypadków uczących. 


Błąd sieci określa się jako sumę przypadków jej błędnego działania (błędnej klasyfikacji lub 
predykcji) uzyskanych dla pojedynczych danych wejściowych. 
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Leksykon sieci neuronowych 


Walidacja n-krotna 


Przy tym sposobie walidacji zbiór danych uczących jest dzielony na n rozłącznych podzbio- 
rów (zwykle równolicznych). Jeden z nich służy do testowania sieci, a pozostałe do jej ucze- 
nia. Operacja ta powtarzana jest n razy, tak, aby każdy podzbiór pełnił rolę zbioru walida- 
cyjnego. Skuteczność sieci określa się zwykle jako średnią błędów klasyfikacji lub predykcji 
uzyskanych dla poszczególnych zbiorów walidacyjnych. 


całkowita ilość przypadków 


Walidacja krzyżowa k-krotna (dla k=4) 


podzbiór testowy 
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Warstwa topologiczna 


Warstwa w sieci Kohonena, na której prezentowany jest wynik pracy tej sieci w postaci 
mapy topologicznej. Po procesie uczenia neurony warstwy topologicznej mają przypisa- 
ne do siebie obiekty (zestawy danych wejściowych), które pojawiały się szczególnie często 
podczas procesu samouczenia sieci. Neurony warstwy topologicznej mogą więc te obiekty 
wykrywać, sygnalizować, grupować i kategoryzować. Przykład warstwy topologicznej przed- 
stawiono na rysunku. 
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Warstwa ukryta 


Warstwę określa się jako ukrytą, jeśli do neuronów tej warstwy nie ma bezpośredniego do- 
stępu ani od strony wejścia sieci, ani od strony jej wyjścia. Rola warstwy ukrytej polega na 
przetwarzaniu danych wejściowych w taki sposób, żeby uzyskane dane wyjściowe były 
przydatne dla potrzeb wypracowania rozwiązania całego zadania w warstwie wyjściowej 
sieci. Twórca sieci neuronowej ma zwykle trudności z ustaleniem, ile elementów powinna 
mieć warstwa ukryta. 


Mała liczba neuronów w warstwie ukrytej może sprawić, że sieć będzie zbyt prymitywna, 
żeby poradzić sobie z trudnością rozwiązywanego zadania. Duża liczba neuronów w warstwie 
ukrytej da sieć znacznie inteligentniejszą, ale spowoduje, że sieć sprawi więcej kłopotów 
podczas uczenia. Liczbę neuronów w warstwie ukrytej optymalizuje się dla danego proble- 
mu metodą empiryczną, analizując jakość działania sieci o różnej ilość neuronów ukrytych. 
Odrębnym problemem jest też liczba warstw ukrytych. 
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Warstwa wejściowa 


Jest to warstwa sieci neuronowej, która nie uczestniczy bezpośrednio w wypracowywaniu 
odpowiedzi sieci. Rola neuronów warstwy wejściowej polega na tym, że rozprowadzają 
one dane wejściowe w postaci sygnałów do neuronów pierwszej warstwy ukrytej. Ko- 
rzystną okolicznością związaną z warstwą wejściową jest to, że także w tej warstwie może 
w wyniku procesu uczenia dochodzić do redukcji połączeń. Jeśli redukcja taka wskaże na 
celowość usunięcia niektórych neuronów warstwy wejściowej - będzie to dowodziło, że od- 
powiednie dane wejściowe były niepotrzebne. Ma to spore znaczenie praktyczne, bo twór- 
ca sieci neuronowej często nie wie, które z posiadanych danych wejściowych są przydatne 
do rozwiązania postawionego zadania, a które nie. Jeśli tylko zbiór uczący jest wystarczająco 
liczny, można sobie pozwolić na eksperyment polegający na tym, że na wejście sieci podamy 
wszystkie posiadane dane i uruchomimy proces uczenia. Jeśli w wyniku uczenia otrzyma- 
my sieć charakteryzującą się na egzaminie małą wartością błędu, a jednocześnie w sieci 
dojdzie do znaczącej redukcji połączeń związanych z warstwą wejściową, to można uznać, że 
w wyniku uczenia sieć wybrała użyteczne dane wejściowe, a odrzuciła dane nieprzydatne. 
Hasło redukcja warstwy wejściowej pokazuje na konkretnym przykładzie (do którego na- 
wiązuje rysunek poniżej), jak to działa. 


Rozpoznawane obiekty (irysy) 


warstwa 
wejściowa 
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Warstwa wyjściowa 


Zbiór neuronów, których sygnały wyjściowe są traktowane jako wyjście całej sieci, okre- 
ślany jest mianem warstwy wyjściowej sieci neuronowej. Dla twórcy sieci neuronowej nie- 
banalny bywa problem, ile neuronów w warstwie wyjściowej powinna mieć budowana 
sieć. Pozornie odpowiedź jest łatwa: Ze sposobu sformułowania zadania wynika, ile danych 
wyjściowych oczekuje użytkownik sieci, a ztego z kolei wynika, ile neuronów powinna liczyć 
warstwa wyjściowa sieci. 


Ta odpowiedź jest jednak niepełna, ponieważ w wielu przypadkach kwestią całkowicie 
otwartą jest to, czy potrzebną liczbę danych wyjściowych lepiej jest uzyskać poprzez za- 
stosowanie jednej sieci o wielu wyjściach, czy też zastosować kilka sieci, z których każda 
dostarcza jednej danej wyjściowej. 


Obie rozważane wyżej możliwości mają różne konsekwencje w odniesieniu do uczenia sieci. 
Zagadnienie to naświetlone jest dodatkowo w haśle wyjście. 
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Warstwy w sieciach neuronowych 


Struktura sieci neuronowej zakłada zwykle istnienie warstw neuronów. Warstwa stanowi 
umowne wyobrażenie sposobu ułożenia grupy neuronów mających w sieci określoną funk- 
cję. Wyróżnia się warstwę wejściową, warstwy ukryte oraz warstwę wyjściową. 


I II 
warstwa warstwa warstwa warstwa 
wejściowa ukryta ukryta wyjściowa 
— 


©- 


Podział sieci na warstwy determinuje między innymi połączenia neuronów. Najczęściej 
łączone są tylko neurony należące do sąsiednich warstw. 
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Wejście 


Skrótowa nazwa drogi wprowadzania do poszczególnych neuronów albo do całej sieci neu- 
ronowej danych wejściowych. Czasami żargonowo nazwą tą określa się same dane wej- 
ściowe, chociaż jest to niepoprawne. 


Zaletą sieci neuronowej jest to, że można na jej wejście wprowadzać niezrozumiałe dla użyt- 
kownika i nieuporządkowane dane wejściowe, a po nauczeniu sieci na jej wyjściu dostaje 
się zwykle porządny i użyteczny wynik, wygodny i łatwy do interpretacji. 
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Wektor wag 


Parametry neuronu, jakimi są wagi, są uporządkowane i ponumerowane, podobnie jak po- 
szczególne dane wejściowe, z którymi te wagi są skojarzone. Dlatego wygodnie jest czasem 
mówić o całym zestawie wag danego neuronu jako o wektorze wag. Wektor wag determinuje 
właściwości neuronu, bo każda jego zmiana powoduje, że neuron zmienia swoje zachowanie, 
czasem bardzo radykalnie (patrz rysunek przy haśle wagi). Na zasadzie analogii do wektora wag 
również zestaw danych wejściowych (składowych sygnału wejściowego) określany bywa jako 
wektor wejściowy albo krótko jako sygnał. Wzajemne położenie wektora wag (będącego wy- 
nikiem procesu uczenia) oraz wektora wejściowego decyduje o odpowiedzi neuronu. Wyni- 
ka to z przyjmowanej najczęściej agregacji danych wejściowych w postaci agregacji liniowej. 


Na zasadzie analogii z wektorem wag pojedynczego neuronu mówi się także o wektorze 
wag całej sieci - rozumiejąc przez to konkatenację (połączenie) wektorów wag wszystkich 
neuronów wchodzących w skład sieci. 
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Wektor wejściowy 


Zestaw danych wejściowych podawanych na wejście neuronu jest ponumerowany. Nu- 
meracja ta jest arbitralnie wprowadzona dla wygody operowania danymi wejściowymi oraz 
dla uproszczenia opisujących je formuł matematycznych. Jednak korzystając z faktu tego po- 
numerowania wejść mówi się często o danych wejściowych podawanych do pojedynczego 
neuronu albo do całej sieci jako o wektorze wejściowym. Składowe tego wektora opisują 
obiekt, który jest przedmiotem rozpoznawania w sieciach klasyfikacyjnych albo dla które- 
go należy obliczyć wybrane wartości wyjściowe w sieciach regresyjnych. 


Kształt 


Kształt 
obiektu 
rozpoznawanego 


Wielkość ı 
obiektu ! 
rozpoznawanego 


Wielkość 


Obiekt 
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Współczynnik uczenia 


Współczynnik uczenia (learning rate) jest parametrem wiążącym lokalne właściwości funkcji 
błędu sieci neuronowej, wyznaczane na przykład z pomocą algorytmu wstecznej propaga- 
cji błędu, odwołujące się (w procesie różniczkowania) do nieskończenie małych zmian wag - 
z działaniem polegającym na makroskopowych (a więc nie nieskończenie małych) zmianach 
wag w każdym kolejnym kroku uczenia. Algorytm uczenia wskazuje, w jakim kierunku należy 
zmienić wagi, żeby błąd popełniany przez sieć zmalał, natomiast wybór współczynnika ucze- 
nia decyduje o tym, jak bardzo zdecydujemy się te wagi we wskazanym kierunku zmienić. Jeśli 
współczynnik uczenia wybierzemy zbyt mały, to proces uczenia może bardzo długo trwać, bo bę- 
dziemy bardzo wolno zmierzać do finalnego (optymalnego) zestawu wartości wszystkich wag. Je- 
dr jednak zastosujemy zbyt duży współczynnik uczenia - to będziemy wykonywać zbyt duże kroki 
i na skutek niemonotonicznej charakterystyki funkcji błędu może się zdarzyć, że „przeskoczymy” 
właściwą drogę zmierzającą do punktu zapewniającego minimum funkcji błędu. W efekcie błąd 
po wykonaniu poprawki wag może być większy, a nie mniejszy niż poprzednio (patrz rysunek). 


Błąd 


$ Mały współczynnik 


uczenia 


Duży współczynnik 
uczenia 


Wagi 


W skrajnym przypadku zbyt duża wartość współczynnika uczenia może prowadzić do nie- 
stabilności procesu uczenia, gdyż wartości wag zamiast się stabilizować w trakcie uczenia 
- uciekają do nieskończoności. 


Użyteczną metaforą przybliżającą intuicyjne zrozumienie znaczenia współczynnika uczenia 
jest porównanie go do surowości nauczyciela. 
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Wsteczna propagacja błędów 


Zasada ustalania wartości błędów dla neuronów należących do warstw ukrytych wyko- 
rzystywana przez algorytm uczenia sieci neuronowej. Wsteczna propagacja błędów jest 
wykorzystywana przez algorytm backpropagation, historycznie pierwszy i do dziś jeden 
z najpopularniejszych algorytmów uczenia z nauczycielem. Algorytm ten bywa stosowany 
do uczenia różnego typu sieci jednokierunkowych. Opiera się na koncepcji poprawiania 
na każdym kroku procesu uczenia wartości korekty wag na podstawie oceny błędu popeł- 
nianego przez każdy neuron podczas uczenia sieci. 


Konieczność stosowania wstecznej propagacji błędu wynika z tego, że tylko błędy w neuro- 
nach warstwy wyjściowej wyznacza się bezpośrednio na podstawie danych wyjściowych 
i odpowiedzi wzorcowych zawartych w zbiorze uczącym. Natomiast dla neuronów w war- 
stwach ukrytych błąd musi być wyznaczany właśnie poprzez wsteczną propagację. Przy tej 
wstecznej propagacji rozważany neuron otrzymuje (ma przypisaną) wartość błędu wyliczaną 
na podstawie wartości błędów wszystkich tych neuronów, do których wysyłał on wartość 
swojego sygnału wyjściowego jako składnika ich danych wejściowych. Przy obliczaniu war- 
tości wstecznie rzutowanego błędu uwzględnia się wartości wag połączeń pomiędzy rozwa- 
żanym neuronem i neuronami, których błędy są do niego wstecznie rzutowane (wstecznie, 
bo przeciwnie do kierunku przepływu sygnału w jednokierunkowej sieci). 
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Błędy wyznaczone 
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Po obliczeniu wartości błędów neuronów warstwy ukrytej najbliższej wyjścia procedurę się 
powtarza, przyjmując wyliczone wartości błędów jako znane i w taki sam sposób przeprowa- 
dzając ich propagację do kolejnej warstwy ukrytej, bliższej wejścia. 
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Wybór współczynnika uczenia 


Współczynnik uczenia decyduje o szybkości procesu uczenia sieci neuronowej i powinien 
być dostosowany do charakteru funkcji błędu. Ponieważ jednak przy typowych zastosowa- 
niach sieci neuronowych charakter funkcji błędu jest nieznany - dlatego wybór wartości 
współczynnika uczenia jest z reguły całkowicie arbitralny, a jego ocena dokonywana jest ex 
post, na podstawie obserwacji przebiegu procesu uczenia. Niektóre programy modelujące 
sieci neuronowe proponują użytkownikowi sugerowaną wartość współczynnika uczenia 
(wynikającą z doświadczeń twórców oprogramowania), a użytkownik wartość tę po prostu 
zatwierdza (lub zmienia, jeśli ma powody). Niektóre algorytmy uczenia sieci neuronowych 
(na przykład Quickpropagation) zawierają w sobie mechanizm automatycznej optymaliza- 
cji wartości współczynnika uczenia, co powoduje, że początkowy wybór wartości tego współ- 
czynnika wykonywany przez użytkownika ma charakter jedynie „wstępnej przymiarki”. 


Godna uwagi strategia zmian współczynnika uczenia w trakcie uczenia sieci przedstawiona 
jest na rysunku poniżej. 


Wartość współczynnika uczenia 7 
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Wyjście 


Skrótowa nazwa drogi wyprowadzania z poszczególnych neuronów albo z całej sieci neuro- 
nowej danych wyjściowych. Czasami żargonowo nazwą tą określa się same dane wyjścio- 
we, chociaż jest to niepoprawne. 


Każdy neuron posiada swoje wyjście, na którym wytwarza sygnał wyjściowy wynikający 
z zastosowanej metody agregacji danych wejściowych oraz z przyjętej funkcji aktywacji. 
Jednak pojęcie wyjścia pojedynczego neuronu jest dokładnie omówione w kontekście ha- 
sła neuron i nie ma potrzeby tu się nim osobno zajmować. 


Natomiast niebanalne problemy wynikają przy dyskusji wyjścia z całej sieci. Z zasady przyjmu- 
je się, że wyjściem całej sieci jest zbiór wartości pojawiających się na wyjściach neuronów bu- 
dujących warstwę wyjściową sieci. Jednak bywają okoliczności, w których warto od tej zasady 
odstąpić. Załóżmy, że uczymy jedną sieć neuronową o dwóch wyjściach A oraz B (patrz rysunek 
po lewej stronie). W neuronach obu warstw ukrytych będą musiały być zgromadzone informa- 
cje potrzebne do wyznaczania wartości A oraz B. Czasem może to być korzystne, gdy między 
wyjściami zachodzi synergia i, doskonaląc pracę sieci zmierzającą do wyznaczania poprawnych 
wartości A, przy okazji gromadzi się wiedzę przydatną do wyznaczania wartości B. 
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Częściej jednak bywa tak, że między wyjściami jest konflikt i wyznaczając wartości przydatne 
do obliczenia A psujemy wartości potrzebne dla B - i vice versa. Lepiej jest wtedy zbudować 
dwie osobne sieci (patrz rysunek po prawej stronie). Każdą z nich można wtedy będzie w ca- 
łości optymalnie dostroić do obliczania wymaganego wyjścia - odpowiednio A albo B. 
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Zbiór testowy 


Część zbioru uczącego przeznaczona do przeprowadzenia po zakończeniu uczenia jedno- 
razowej kontroli (czy w wyniku zbiegu okoliczności mimo okresowej walidacji nie doszło 
w trakcie uczenia do utraty zdolności generalizacji). Zbiór testowy tworzy się wyłącznie 
w przypadku posiadania bardzo dużego zbioru uczącego, włączając do niego około 10% 
losowo wybranych przypadków uczących. 


Wyjątkowo ciekawy przykład użycia zbioru testowego przedstawia rysunek, zaczerpnięty 
(z drobnymi przeróbkami) z pracy doktorskiej prof. Piotra Czecha z Politechniki Śląskiej. We 
wspomnianej pracy doktorskiej chodziło o wykrywanie uszkodzeń przekładni zębatych. Otóż 
uczenie i walidacja sieci prowadzone były na podstawie danych uzyskanych z komputero- 
wej symulacji rozważanej przekładni, natomiast do testowania sieci użyto danych pochodzą- 
cych z rzeczywistej przekładni, w której celowo wprowadzano uszkodzenia i sprawdzano, czy 
sieć je wykryje. Jest to wzorcowy wręcz przykład zbioru testowego. 


Uczenie 


Walidacja = 


Na koniec jeszcze jedna uwaga: Wielkość błędu ustalona przy użyciu zbioru testowego po- 
winna być zbliżona do wielkości błędu ustalanego dla zbioru walidacyjnego. Jeśli błąd 
uzyskany dla zbioru testowego jest wyraźnie większy od błędu dla zbioru walidacyjnego, 
to uczenie sieci trzeba powtórzyć, ponownie dzieląc w sposób losowy zbiór uczący i wydzie- 
lając nowy zbiór walidacyjny oraz zbiór testowy. 
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Zbiór uczący 


Zbiór przypadków uczących, czyli zadań zawierających dane wejściowe oraz skojarzone 
z nimi odpowiedzi wzorcowe. Część zbioru uczącego wykorzystywana jest do uczenia sieci 
z użyciem wybranego algorytmu uczenia, natomiast część (zwykle około 20%) zostaje losowo 
wydzielona jako zbiór walidacyjny, wykorzystywany w procesie uczenia jedynie pośrednio. 
Jeśli zbiór uczący jest bardzo liczny, to czasem można na jego bazie wydzielić dodatkowo (loso- 
wo!) dodatkowy zbiór testowy (około 10% losowo wybranych przypadków uczących). 
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Na rysunku pokazano przykładowy zbiór uczący wykorzystywany przy uczeniu sieci rozpozna- 
wania twarzy ludzkich. Do każdej z fotografii dołączona jest oczywiście informacja na temat 
poprawnej identyfikacji osoby z portretu, która wykorzystywana jest podczas uczenia do oce- 
ny rozpoznań podawanych przez sieć. 
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Zbiór walidacyjny 


Część zbioru uczącego (zwykle losowo wybranych około 20% przypadków uczących) prze- 
znaczona do przeprowadzania w trakcie uczenia okresowej walidacji mającej na celu za- 
pobieganie zjawisku przeuczenia. Obserwując zmiany błędu SSE w trakcie uczenia sieci 
można zaobserwować dwa zjawiska: systematyczne malenie błędu dla zbioru uczącego (bo 
algorytm uczenia jest ukierunkowany na minimalizację tego błędu) oraz początkowo male- 
jący błąd dla zbioru walidacyjnego (gdy sieć zachowuje zdolność do generalizacji), a potem 
błąd rosnący dla tego zbioru (co wiąże się ze zjawiskiem przeuczenia). Moment zapocząt- 
kowania wzrostu błędu dla zbioru walidacyjnego stanowi sygnał do zakończenia szkolenia 
sieci i odzyskania najlepszych jej wag z epoki poprzedzającej początek wzrostu tego błędu. 
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Zmiany błędu 


Zmiany błędu obserwowane w trakcie procesu uczenia charakteryzują się zwykle tym, że 
na początku przebiegają bardzo dynamicznie (błąd maleje bardzo szybko, a wartość jego 
zmniejszenia jest początkowo bardzo duża), a potem maleje znacznie wolniej i spadek błędu 
jest niewielki. Zdawać by się mogło, że najważniejszy jest ten początkowy okres uczenia sieci 
(gdy błąd szybko maleje), natomiast doskonalenie działania sieci w obszarze powolnego 
malenia niewielkich już błędów ma pozornie niewielkie znaczenie. 
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Ocena ta nie jest jednak trafna. Rysunek pokazuje, że początkowy szybki okres malenia błę- 
du w istocie związany jest z tym, że sieć neuronowa dostosowuje wtedy jedynie zgrubnie 
swoje działanie do właściwości rozwiązywanego zadania. Natomiast ten pozornie niewielki 
spadek błędu w powolnym okresie uczenia prowadzi do istotnego dopasowania działania 
sieci do wzorców zawartych w zbiorze uczącym. 
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Zmiany wartości współczynnika uczenia 


Współczynnik uczenia może zmieniać się w trakcie uczenia sieci, co zwykle polepsza 
jakość uzyskiwanych wyników. Optymalne wydają się niemonotoniczne zmiany wartości 
współczynnika uczenia w trakcie nauki, pokazane i uzasadnione na rysunku poniżej. 


Wartość współczynnika uczenia 


Liczba epok procesu uczenia 
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